文章詳情頁

網頁爬蟲 - Python使用requests庫搜到的圖片src下的url是正在加載的圖片

瀏覽：64日期：2022-08-21 11:32:09

問題描述

我想下載http://www.chuiyao.com/manhua/3670/393022.html里面的圖片，但用下面的代碼搜到的圖片是這個http://www.chuiyao.com/static/skin5/images/pic_loading.gif。headers我是用的chrome瀏覽器network下的393022.html的Request Headers

import requestsfrom lxml import htmldef main(): url = 'http://www.chuiyao.com/manhua/3670/393022.html' headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, sdch','Accept-Language':'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4','Cache-Control':'no-cache','Connection':'keep-alive','Cookie':'__cfduid=d1fd7e3291dbb9fc63a4884a0441f78ee1486866309; bdshare_firstime=1486866314583; UM_distinctid=15af3096a8336d-08f956321b6c03-1d3b6853-1fa400-15af3096a84296; qtmhhis=2017-2-21-18-47-47%5E%5E%u6597%u7834%u82CD%u7A79%5E%5E%u7B2C189%u8BDD%20%u6BD2%u9B54%u6591%5E%5E1%5E%5E393022%5E%5E3670_ShG_; Hm_lvt_1317de45b1b9f5aacfe358d1694b22f9=1488746420,1490136167,1490136167,1490136753; Hm_lpvt_1317de45b1b9f5aacfe358d1694b22f9=1490136753; CNZZDATA1254167849=49322564-1486864570-https%253A%252F%252Fwww.google.com%252F%7C1490131571','Host':'www.chuiyao.com','Pragma':'no-cache','Referer':'http://www.chuiyao.com/manhua/3670/','Upgrade-Insecure-Requests':'1','User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } page = requests.get(url, headers = headers) tree = html.fromstring(page.content) print(tree.xpath(’//*[@id='qTcms_pic']/@src’)) if __name__ == '__main__': main()

為什么會這樣？

問題解答

回答1：

圖片是js動態加載的，你的爬蟲只是獲取了靜態頁面。

主要的加載圖片的功能在這個js文件里：

www.chuiyao.com/static/skin5/js/wdshow.js?v=20160713.1

你自己用python的相關模塊來模擬該js的功能，即可解析出圖片地址。

回答2：

img 標簽的內容是通過調用 js 的 Show_Pic_w() 方法在頁面加載完成后動態替換的，你用 python 是獲取不到和瀏覽器一樣的頁面的

網頁爬蟲 - Python使用requests庫搜到的圖片src下的url是正在加載的圖片

Python 編程

上一條：python - sqlalchemy app.config使用報錯下一條：python - 如何在目錄下按照一定順序提取出指定的文件名？

相關文章：

1. Python爬蟲如何爬取span和span中間的內容并分別存入字典里？2. mysql - 把一個表中的數據count更新到另一個表里?3. 請教使用PDO連接MSSQL數據庫插入是亂碼問題?4. python - 爬蟲模擬登錄后，爬取csdn后臺文章列表遇到的問題5. visual-studio - Python OpenCV: 奇怪的自動補全問題6. linux - Ubuntu下編譯Vim8（+python）無數次編譯失敗7. node.js - nodejs開發中常用的連接mysql的庫8. mysql 查詢身份證號字段值有效的數據9. 視頻文件不能播放，怎么辦？10. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處

排行榜

					
					node.js - npm init無法一直回車。到version就卡主不動了
解決Android webview設置cookie和cookie丟失的問題
javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
visual-studio - Python OpenCV: 奇怪的自動補全問題
python bottle跑起來以后,定時執行的任務為什么每次都重復(多)執行一次?
javascript - 移動端自適應
docker內創建jenkins訪問另一個容器下的服務器問題
視頻文件不能播放，怎么辦？
angular.js - Beego 與 AngularJS的模板格式沖突，該怎么解決？
Mongodb web連接28017后，提示登錄的用戶名密碼在 db那里預設置
angular.js - 在ng-option 里使用過濾器無效
				

熱門標簽