文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬??？

瀏覽：107日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網站，我需要判斷網頁是否可以爬取，第一反應是通過狀態碼來判斷，但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態碼卻是200，結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題，但是現在也不能用狀態碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態碼，是網絡連接狀態，所以你只判斷200并不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規則是什么，可以先人工判斷下，找找規律，比如看看網頁返回內容是不是有什么特點之類的。

回答2：

做個網頁內容的判斷，如果他網頁里面沒有內容就直接返回。

回答3：

就算是頁面狀態碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內如何跳轉至其他頁面。下一條：Python做掃描，發包速度實在是太慢了，有優化的方案嗎？

相關文章：

1. 網頁爬蟲 - Python 爬蟲中如何處理驗證碼？2. css3 - 微信前端頁面遇到的transition過渡動畫的bug3. javascript - 請教如何獲取百度貼吧新增的兩個加密參數4. Python如何播放還存在StringIO中的MP3?5. Python爬蟲如何爬取span和span中間的內容并分別存入字典里？6. （python)關于如何做到按win+R再輸入文件文件名就可以運行？7. python - Win7調用flup報錯’module’ object has no attribute ’fromfd’8. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處9. mysql 一個sql 返回多個總數10. mysql - 如何減少使用或者不用LEFT JOIN查詢？

排行榜

					
					python - Win7調用flup報錯’module’ object has no attribute ’fromfd’
javascript - npm安裝警告
javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
（python)關于如何做到按win+R再輸入文件文件名就可以運行？
docker安裝后出現Cannot connect to the Docker daemon.
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
7. mysql 一個sql 返回多個總數
css - input間的間距和文字上下居中
javascript - 責任具體在哪一方
angular.js - 在ng-option 里使用過濾器無效
				

熱門標簽

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬??？

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬??？