文章詳情頁

python - 正則表達式匹配html的問題。

瀏覽：73日期：2022-09-05 14:29:29

問題描述

<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>用BeautifulSoup html.parser解析的網頁，現在用re模塊想抓取**第7行**的中文內容，放在一個組里面（.*?）。正則老是匹配不上，用換行符也匹配不上，不知道怎么寫了。。。

問題解答

回答1：

既然你都用bs4解析了，為什么不用它提取哪？bs4內有一個stripped_string的函數正好滿足你的需要。

回答2：

import repattern = re.compile(r’.*?(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>’’’print(pattern.search(str).group(1))===> 中文內容 #需要抓取的內容回答3：

const re = /^(.*)</dd>$/

這樣可以不?

Python 編程

上一條：python - 這段函數如何改寫比較優雅?下一條：python - 如何在scrapy中帶cookie訪問？

相關文章：

1. 小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發現2. html5和Flash對抗是什么情況？3. python沒入門，請教一個問題4. php如何獲取訪問者路由器的mac地址5. javascript - 這兩種函數寫法各有什么好處？6. javascript - vue-resource中如何設置全局的timeout？7. 求教一個mysql建表分組索引問題8. node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數據，可是讀取出來的日期是數字，請問該如何讀取日期呢？9. sql語句如何按or排序取出記錄10. html5 - input type=’file’ 上傳獲取的fileList對象怎么存儲于瀏覽器？

排行榜

					
					python沒入門，請教一個問題
javascript - vue-resource中如何設置全局的timeout？
javascript -  這兩種函數寫法各有什么好處？
html5和Flash對抗是什么情況？
php如何獲取訪問者路由器的mac地址
小程序怎么加外鏈，語句怎么寫！求救新手，開文檔沒發現
sql語句如何按or排序取出記錄
javascript -  在 vue里面用import引入js文件，結果為undefined
node.js - 用nodejs 的node-xlsx模塊去讀取excel中的數據，可是讀取出來的日期是數字，請問該如何讀取日期呢？
java 線程監控 重啟線程 觀察者模式的問題的問題
求教一個mysql建表分組索引問題
				

熱門標簽

python - 正則表達式匹配html的問題。

python - 正則表達式匹配html的問題。