文章詳情頁

python 爬取小說并下載的示例

瀏覽：88日期：2022-07-02 18:47:56

代碼

import requestsimport timefrom tqdm import tqdmfrom bs4 import BeautifulSoup''' Author: Jack Cui Wechat: https://mp.weixin.qq.com/s/OCWwRVDFNslIuKyiCVUoTA'''def get_content(target): req = requests.get(url = target) req.encoding = ’utf-8’ html = req.text bf = BeautifulSoup(html, ’lxml’) texts = bf.find(’div’, id=’content’) content = texts.text.strip().split(’xa0’*4) return contentif __name__ == ’__main__’: server = ’https://www.xsbiquge.com’ book_name = ’詭秘之主.txt’ target = ’https://www.xsbiquge.com/15_15338/’ req = requests.get(url = target) req.encoding = ’utf-8’ html = req.text chapter_bs = BeautifulSoup(html, ’lxml’) chapters = chapter_bs.find(’div’, id=’list’) chapters = chapters.find_all(’a’) for chapter in tqdm(chapters): chapter_name = chapter.string url = server + chapter.get(’href’) content = get_content(url) with open(book_name, ’a’, encoding=’utf-8’) as f: f.write(chapter_name) f.write(’n’) f.write(’n’.join(content)) f.write(’n’)

下載效果：

python 爬取小說并下載的示例

可以看到，小說內容保存到“詭秘之主.txt”中，小說一共 1416 章，下載需要大約 20 分鐘，每秒鐘大約下載 1 個章節。

下載完成，實際花費了 27 分鐘。

20 多分鐘下載一本小說，你可能感覺太慢了。想提速，可以使用多進程，大幅提高下載速度。如果使用分布式，甚至可以1秒鐘內下載完畢。

但是，我不建議這樣做。

我們要做一個友好的爬蟲，如果我們去提速，那么我們訪問的服務器也會面臨更大的壓力。

以我們這次下載小說的代碼為例，每秒鐘下載 1 個章節，服務器承受的壓力大約 1qps，意思就是，一秒鐘請求一次。

如果我們 1 秒同時下載 1416 個章節，那么服務器將承受大約 1416 qps 的壓力，這還是僅僅你發出的并發請求數，再算上其他的用戶的請求，并發量可能更多。

如果服務器資源不足，這個并發量足以一瞬間將服務器“打死”，特別是一些小網站，都很脆弱。

過大并發量的爬蟲程序，相當于發起了一次 CC 攻擊，并不是所有網站都能承受百萬級別并發量的。

所以，寫爬蟲，一定要謹慎，勿給服務器增加過多的壓力，滿足我們的獲取數據的需求，這就夠了。

你好，我也好，大家好才是真的好。

以上就是python 爬取小說并下載的示例的詳細內容，更多關于python 爬取小說下載的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 實現數據庫中數據添加、查詢與更新的示例代碼下一條：Python常用GUI框架原理解析匯總

相關文章：

1. IntelliJ IDEA設置自動提示功能快捷鍵的方法2. 詳解idea中web.xml默認版本問題解決3. IntelliJ IDEA導入jar包的方法4. IntelliJ IDEA 2020最新激活碼(親測有效，可激活至 2089 年)5. IntelliJ IDEA 統一設置編碼為utf-8編碼的實現6. asp知識整理筆記4（問答模式）7. idea修改背景顏色樣式的方法8. jsp EL表達式詳解9. 解決ajax的delete、put方法接收不到參數的問題方法10. 使用Python爬取Json數據的示例代碼

排行榜

					
					idea修改背景顏色樣式的方法
IntelliJ IDEA配置Tomcat服務器的方法
IntelliJ IDEA設置自動提示功能快捷鍵的方法
IntelliJ IDEA 統一設置編碼為utf-8編碼的實現
使用Python爬取Json數據的示例代碼
asp知識整理筆記4（問答模式）
解決ajax的delete、put方法接收不到參數的問題方法
jsp EL表達式詳解
IntelliJ IDEA 2020最新激活碼(親測有效，可激活至 2089 年)
IntelliJ IDEA刪除類的方法步驟
詳解idea中web.xml默認版本問題解決
				

熱門標簽