文章詳情頁

Python常見反爬蟲機制解決方案

瀏覽：2日期：2022-07-23 16:18:55

1、使用代理

適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {’http’:’http://XX.XX.XX.XX:XXXX’}Requests： import requests response = requests.get(url=url, proxies=proxies)Urllib2： import urllib2 proxy_support = urllib2.ProxyHandler(proxies) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # 安裝opener，此后調用urlopen()時都會使用安裝過的opener對象 response = urllib2.urlopen(url)

2、時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import timetime.sleep(1)

3、偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還

會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

headers = {’User-Agent’:’XXXXX’} # 偽裝成瀏覽器訪問，適用于拒絕爬蟲的網站headers = {’Referer’:’XXXXX’}headers = {’User-Agent’:’XXXXX’, ’Referer’:’XXXXX’}Requests： response = requests.get(url=url, headers=headers)Urllib2： import urllib, urllib2 req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python網絡爬蟲四大選擇器用法原理總結下一條：解決python運行啟動報錯問題

相關文章：

1. ASP常用日期格式化函數 FormatDate()2. 利用FastReport傳遞圖片參數在報表上展示簽名信息的實現方法3. ASP中if語句、select 、while循環的使用方法4. HTML中的XML數據島記錄編輯與添加5. ASP.NET Core按用戶等級授權的方法6. 詳解瀏覽器的緩存機制7. phpstudy apache開啟ssi使用詳解8. ASP新手必備的基礎知識9. 推薦一個好看Table表格的css樣式代碼詳解10. .NET 中配置從xml轉向json方法示例詳解

排行榜

					
					PHP 工程師面試的四個環節
Android Studio中一套代碼多渠道打包的實現方法
詳解瀏覽器的緩存機制
Python 圖片處理庫exifread詳解
springboot項目整合mybatis并配置mybatis中間件的實現
Java實現簡單LRU緩存機制的方法
JS實現炫酷輪播圖
Lore Article.PHP SQL注入漏洞
Python Opencv中用compareHist函數進行直方圖比較對比圖片
JavaScript forEach中return失效問題解決方案
使用python編寫一個語音朗讀鬧鐘功能的示例代碼
				

熱門標簽

国产综合久久一区二区三区