文章詳情頁

Python爬蟲的亂碼問題？

瀏覽：83日期：2022-07-30 16:40:27

問題描述

使用python實現模擬登陸并爬取返回頁面的時候出現了亂碼，目標網頁的編碼使用utf-8 Python爬蟲的亂碼問題？

相關代碼：

#coding=utf-8import urllibimport urllib2headers={ ’Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate’, ’Accept-Language’:’zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, ’Connection’:’keep-alive’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36’}payload={ ’_eventId’:’submit’, ’lt’:’_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF’, ’password’:’’, ’submit’:’登錄’, ’username’:’’}payload=urllib.urlencode(payload)request = urllib2.Request(posturl, payload, headers)print requestresponse = urllib2.urlopen(request)text = response.read()print text

控制臺輸出信息： Python爬蟲的亂碼問題？

第一次遇見這種亂碼比較懵逼

問題解答

回答1：

urllib2沒有處理壓縮的問題，你要使用gzip解壓，比如這樣

from StringIO import StringIOimport gzipif response.info().get(’Content-Encoding’) == ’gzip’: buf = StringIO(text) f = gzip.GzipFile(fileobj=buf) data = f.read()

總結urllib2比較底層，建議使用requests

Python 編程

上一條：http - python requests上傳文件問題下一條：elasticsearch - 在python函數執行過程中，如何判斷并處理其中一條語句的返回值？

相關文章：

1. python - 如何正則字符串中的所有漢字2. mysql - 千萬級數據的表，添加unique約束，insert會不會很慢？3. python - oslo_config4. mysql - 如何減少使用或者不用LEFT JOIN查詢？5. mysql - jdbc的問題6. mysql - eclispe無法打開數據庫連接7. mysql 5個left關鍵然后再用搜索條件幾千條數據就會卡，如何解決呢8. 圖片鏈接的地址怎么獲得的9. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處10. 視頻文件不能播放，怎么辦？

排行榜

					
					javascript - npm安裝警告
javascript - es6將類數組轉化成數組的問題
javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
python - 小白django提交數據后，沒有存儲到數據庫（查閱資料并沒有發現問題）
python - 如何正則字符串中的所有漢字
mysql - eclispe無法打開數據庫連接
mysql - 千萬級數據的表，添加unique約束，insert會不會很慢？
python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載
docker安裝后出現Cannot connect to the Docker daemon.
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker內創建jenkins訪問另一個容器下的服務器問題
				

熱門標簽

国产综合久久一区二区三区