文章詳情頁

python - 如何爬取跳轉網站的數據

瀏覽：82日期：2022-06-30 14:37:44

問題描述

目前在學習一些爬蟲的知識，對于一些復雜的網站使用selenium進行爬取。碰到一個問題，我需要爬取的工單網站（不知道密碼）需要先通過登錄一個鑒權系統，然后鑒權系統頁面點擊其中的工單系統連接，就會自動免登錄跳轉到工單系統網站，這種系統的數據我該如何使用爬蟲進行抓取？以下是鑒權系統selenium拿到關于工單系統的html

<a href='http://www.wxshucaidpc.com/link-test001' target='_blank' rel='link-test001' data='1' datasrc='工單系統|||/files/link/test001.gif|||new|||/link-test001'> <img src='http://www.wxshucaidpc.com/files/link/test001.gif' alt='工單系統' align='absmiddle'><span>工單系統</span></a>

問題解答

回答1：

用firefox的擴展selenium ide錄制一遍操作。然后導出為python文件。改改運行就可以了。

建議你去讀讀蟲師寫的書。

回答2：

例如使用requests庫作為爬蟲的話，先創建session()，A登錄，B是跳轉的頁面即可。

T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)

創建的T就代表存儲的cookie，會一直保留

Python 編程

上一條：python如何獲得一個url地址對應的跳轉后的最終網址下一條：python - Django如何在View中發送異步HTTP請求？

相關文章：

1. docker - 如何修改運行中容器的配置2. utf-8 - python在windows命令行下生成文件亂碼問題，如何解決？3. 現在大家是用Mysql還是mariaDb？4. javascript - react input file5. html5 - bootstrap修改樣式的問題6. javascript - 正則表達式 w只匹配出一個字母，若要匹配出一個單詞，怎么寫？7. css - input間的間距和文字上下居中8. thinkphp5.0.24+PHPExcel導出功能總是導出不了,請大佬們幫忙分析原因9. npm鏡像站全新上線10. android - 百度地圖模擬器上報錯

排行榜

					
					docker - 如何修改運行中容器的配置
css - input間的間距和文字上下居中
utf-8 - python在windows命令行下生成文件亂碼問題，如何解決？
現在大家是用Mysql還是mariaDb？
javascript - react input file
javascript - 正則表達式 w只匹配出一個字母，若要匹配出一個單詞，怎么寫？
html5 - bootstrap修改樣式的問題
thinkphp5.0.24+PHPExcel導出功能總是導出不了,請大佬們幫忙分析原因
mysql的主從復制、讀寫分離，關于從的問題
android - 百度地圖模擬器上報錯
docker安裝后出現Cannot connect to the Docker daemon.
				

熱門標簽

国产综合久久一区二区三区