文章詳情頁

網頁爬蟲 - python 爬取網站并解析非json內容

瀏覽：86日期：2022-06-27 10:19:15

問題描述

小弟剛學會獲得json的內容，但今天爬的網站返回的并不是json內容并且會有一個隨機數的生成在每次請求鏈接的后面

網頁爬蟲 - python 爬取網站并解析非json內容

不知道會不會影響我要爬的內容

需要獲得內容是下圖中間的內容

網頁爬蟲 - python 爬取網站并解析非json內容網站鏈接 http://www.szse.cn/main/discl...

我自己嘗試的代碼：

import requestsdir = ’/Users/S1Lence/Desktop/new_html/szse/許可類重組問詢函’headers = {’Host’: ’www.szse.cn’, ’Referer’: ’http://www.szse.cn/main/disclosure/jgxxgk/wxhj/’, ’User-Agent’: ’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36’ }payload= {’ACTIONID’: ’7’, ’AJAX’: ’AJAX-TRUE’, ’CATALOGID’: ’main_wxhj’, ’TABKEY’: ’tab1’, ’selecthjlb’: ’許可類重組問詢函’, ’tab1PAGENO’: ’1’, ’tab1PAGECOUNT’: ’7’, ’tab1RECORDCOUNT’: ’63’, ’REPORT_ACTION’: ’navigate’}res = requests.post(’http://www.szse.cn/szseWeb/FrontControllere’, data=payload)print(res.text)

輸出的內容并不是我想要的求解應該怎么爬

問題解答

回答1：

把他的header信息拷過來用。。

回答2：

你post的url地址寫錯了，應該是

http://www.szse.cn/szseWeb/FrontController.szse

Python 編程

上一條：numpy - python [:,2][:,None]是什么意思下一條：（python)關于如何做到按win+R再輸入文件文件名就可以運行？

相關文章：

1. Python爬蟲如何爬取span和span中間的內容并分別存入字典里？2. css3 - 微信前端頁面遇到的transition過渡動畫的bug3. javascript - 請教如何獲取百度貼吧新增的兩個加密參數4. python - 編碼問題求助5. python - 關于計算日期的問題6. （python)關于如何做到按win+R再輸入文件文件名就可以運行？7. Python如何播放還存在StringIO中的MP3?8. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處9. mysql 一個sql 返回多個總數10. mysql - 如何減少使用或者不用LEFT JOIN查詢？

排行榜

python - Win7調用flup報錯’module’ object has no attribute ’fromfd’

python - Win7調用flup報錯’module’ object has no attribute ’fromfd’

1. javascript - npm安裝警告

2. javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題

3. （python)關于如何做到按win+R再輸入文件文件名就可以運行？

4. docker安裝后出現Cannot connect to the Docker daemon.

5. Docker for Mac 創建的dnsmasq容器連不上/不工作的問題

6. docker內創建jenkins訪問另一個容器下的服務器問題

7. debian - docker依賴的aufs-tools源碼哪里可以找到?。?/a>

8. mysql 一個sql 返回多個總數

9. css - input間的間距和文字上下居中

10. javascript - 責任具體在哪一方

熱門標簽

国产综合久久一区二区三区