文章詳情頁

python - 怎么查看網址做的是什么反爬蟲

瀏覽：123日期：2022-06-28 16:54:52

問題描述

網址：https://www.nvshens.com/g/22377/，該網站直接游覽器打開然后，點擊圖片右鍵是可以下載的，然后我爬蟲直接請求下來的圖片就已經被屏蔽了，然后我改了headers跟設置了ip代理，還是沒用。但抓包來看也不是動態加載的數據呀?。?！求解答= =

python - 怎么查看網址做的是什么反爬蟲

問題解答

回答1：

妹子挺漂亮的哈。右鍵確實能打開，但是刷新一下就成盜鏈圖片了。一般防盜鏈，服務器端是會檢查請求頭里面的Referer字段，這就是為什么刷新后就不是原圖的原因（刷新后Referer變了）。 python - 怎么查看網址做的是什么反爬蟲

img_url = 'https://t1.onvshen.com:85/gallery/21501/22377/s/003.jpg'r = requests.get(img_url, headers={’Referer’:'https://www.nvshens.com/g/22377/'}).contentwith open('00.jpg',’wb’) as f: f.write(r)回答2：

獲取圖片時抓包看漏什么參數沒。

回答3：

光顧著看網站內容，差點忘記了正式了。你可以把你請求的信息全部按照

python - 怎么查看網址做的是什么反爬蟲

然后在試試

回答4：

Referer 照這網站的設計應該是各別的頁面會比較符合假裝是人的行為，而并不是用單一的Referer以下是完整能跑的代碼，抓18頁所有的圖片

# Putting all togetherdef url_guess_src_large (u): return ('https://www.nvshens.com/img.html?img=' + ’/’.join(u.split(’/s/’)))# 下載函數def get_img_using_requests(url, fn ): import shutil headers [’Referer’] = url_guess_src_large(url) #'https://www.nvshens.com/g/22377/' print (headers) response = requests.get(url, headers = headers, stream=True) with open(fn, ’wb’) as out_file:shutil.copyfileobj(response.raw, out_file) del responseimport requests# 用xpath擷取內容from lxml import etreeurl_ = ’https://www.nvshens.com/g/22377/{p}.html’ headers = { 'Connection' : 'close', # one way to cover tracks 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2900.1 Iron Safari/537.36}'}for i in range(1,18+1): url = url_.format(p=i) r = requests.get(url, headers=headers) html = requests.get(url,headers=headers).content.decode(’utf-8’) selector = etree.HTML(html) xpaths = ’//*[@id='hgallery']/img/@src’ content = [x for x in selector.xpath(item)] urls_2get = [url_guess_src_large(x) for x in content] filenames = [os.path.split(x)[0].split(’/gallery/’)[1].replace('/','_') + '_' + os.path.split(x)[1] for x in urls_2get] for i, x in enumerate(content):get_img_using_requests (content[i], filenames[i])

Python 編程

上一條：python - Django怎么獲取數據庫的值，并放到一起輸出下一條：python - django中普通用戶如何利用admin修改自己的信息？

相關文章：

1. javascript - 請問 chrome 為什么會重復加載圖片資源？2. （python)關于如何做到按win+R再輸入文件文件名就可以運行？3. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處4. python - 能通過CAN控制一部普通的家用轎車嗎？5. c++ - 請問MySQL_Connection::isReadOnly 怎么解決？6. javascript - 請教如何獲取百度貼吧新增的兩個加密參數7. css3 - 微信前端頁面遇到的transition過渡動畫的bug8. Python爬蟲如何爬取span和span中間的內容并分別存入字典里？9. html5 - 只用CSS如何實現input框的寬度隨框里輸入的內容長短自動適應？10. javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題

排行榜

					
					javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
（python)關于如何做到按win+R再輸入文件文件名就可以運行？
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
javascript - 使用 vuex-router-sync寄存路由信息，this.$router params 不能賦值？
javascript - 責任具體在哪一方
angular.js - 在ng-option 里使用過濾器無效
html5 - 只用CSS如何實現input框的寬度隨框里輸入的內容長短自動適應？
html - mongoose里面的populate沒用？
css3 - 微信前端頁面遇到的transition過渡動畫的bug
javascript - 請問 chrome  為什么會重復加載圖片資源？
javascript - 正則匹配大于0，不大于16，不超過兩位小數
				

熱門標簽

国产综合久久一区二区三区