文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里？

瀏覽：107日期：2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里，但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼：

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼：

<li><span class='info-tit'>房屋概況：</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1：

其實還是很有簡單的，你看這個還是有規律的，規律在于有分隔符|，我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況：</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容，然后去除空格。后面你就用split進行分割吧，后面的不寫了。如果有問題再交流。

回答2：我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里？

正確的標簽內容就兩個:

房屋概況：

46m2

回答3：

innerText

回答4：

你這種情況，我覺得用 for 循環加上正則表達式是最方便的，如果所有模版都是這樣固定的話

回答5：

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

Python 編程

上一條：python文檔怎么查看？下一條：python class嵌套怎么訪問父類

相關文章：

1. 在mac下出現了兩個docker環境2. html5 - 百度echart官網下載的地圖json數據亂碼3. javascript - 請教一個問題，大家都是怎么安裝從github下面clone下來的包的開發環境呢?4. 看了好幾遍為什么點擊登錄沒有反應呢在線等。。。。5. android - As ddms報錯6. PhpStudy 8.0 一個服務器怎么創建多個網站，需要注意一些什么7. html5 - 這個代碼顯示功能如何實現？8. javascript - node中為中間層如何解決跨域問題9. 編程小白問關于python當中類的方法的參數問題10. javascript - Object.create(null) 和 {} 區別是什么

排行榜

					
					javascript - node中為中間層如何解決跨域問題
html5 - 百度echart官網下載的地圖json數據亂碼
android - As ddms報錯
在mac下出現了兩個docker環境
html5 - 這個代碼顯示功能如何實現？
PhpStudy 8.0 一個服務器怎么創建多個網站，需要注意一些什么
javascript - 請教一個問題，大家都是怎么安裝從github下面clone下來的包的開發環境呢?
看了好幾遍為什么點擊登錄沒有反應呢  在線等。。。。
ie-css3.htc 放在服務器上為什么不起作用
Python pyinstaller 打包后在其他電腦運行失敗
下一個頁面的三角在上面一個頁面會出現，在縮放的時候會遮住文字。
				

熱門標簽

国产综合久久一区二区三区