文章詳情頁

python - 網頁title中包含換行，如何用正則表達式提取出來？

瀏覽：120日期：2022-06-28 10:07:00

問題描述

在用python做CSDN的網頁爬蟲，在爬取網頁title時，我一直用的正則表達式(?<=<title>).+?(?=<)在CSDN中用不了了，去CSDN源碼一看，title換行顯示了 python - 網頁title中包含換行，如何用正則表達式提取出來？

所以導致原來的正則表達式無法使用，那么，問題來了，像這樣網頁title中包含換行，如何用正則表達式提取出來呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正則哦

CSDN本身有反爬蟲機制，我并不是因為這個反爬蟲而爬不到title的哦

謝謝大家

參照@caimaoy 的方法，我將正則表達式改為 (?<=<title>)(?:.|n)+?(?=<)后，title完美提取。再次感謝大家。

問題解答

回答1：

re.M 多行模式

自己寫多行匹配 http://python3-cookbook.readt...

回答2：

表達式那邊加個flag吧

tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))

Python 編程

上一條：python - 如何正則字符串中的所有漢字下一條：python - 使用`zipfile`模塊在不解壓縮的情況下如何使用text模式讀取文本文件？

排行榜

					
					javascript - 正則表達式 w只匹配出一個字母，若要匹配出一個單詞，怎么寫？
javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
python - 小白django提交數據后，沒有存儲到數據庫（查閱資料并沒有發現問題）
網頁爬蟲 - python 爬取網站 并解析非json內容
python - Scrapy存在內存泄漏的問題。
從事游戲服務端開發（Java），需要具備哪些技術？？？
html5 - 為什么使使用vue cli 腳手架，post-css 沒有自動對css3屬性自動添加瀏覽器前綴呢？
python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載
docker安裝后出現Cannot connect to the Docker daemon.
docker內創建jenkins訪問另一個容器下的服務器問題
debian - docker依賴的aufs-tools源碼哪里可以找到??？
				

熱門標簽

国产综合久久一区二区三区