文章詳情頁
python - 正則表達式匹配html的問題。
瀏覽:73日期:2022-09-05 14:29:29
問題描述
<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內容 #需要抓取的內容</dd>用BeautifulSoup html.parser解析的網頁,現在用re模塊想抓取**第7行**的中文內容,放在一個組里面(.*?)。正則老是匹配不上,用換行符也匹配不上,不知道怎么寫了。。。
問題解答
回答1:既然你都用bs4解析了,為什么不用它提取哪?bs4內有一個stripped_string的函數正好滿足你的需要。
回答2:import repattern = re.compile(r’</span>.*?</span>(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內容 #需要抓取的內容</dd>’’’print(pattern.search(str).group(1))===> 中文內容 #需要抓取的內容回答3:
const re = /^</span>(.*)</dd>$/
這樣可以不?
相關文章:
1. 小程序怎么加外鏈,語句怎么寫!求救新手,開文檔沒發現2. html5和Flash對抗是什么情況?3. python沒入門,請教一個問題4. php如何獲取訪問者路由器的mac地址5. javascript - 這兩種函數寫法各有什么好處?6. javascript - vue-resource中如何設置全局的timeout?7. 求教一個mysql建表分組索引問題8. node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數據,可是讀取出來的日期是數字,請問該如何讀取日期呢?9. sql語句如何按or排序取出記錄10. html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器?
排行榜
