文章詳情頁

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

瀏覽：2日期：2022-07-30 13:12:21

本文實例講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

步驟01: 創建爬蟲項目

scrapy startproject quotes

步驟02: 創建爬蟲模版

scrapy genspider -t quotes quotes.toscrape.com

步驟03: 配置爬蟲文件quotes.py

import scrapyfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractorclass Quotes(CrawlSpider): # 爬蟲名稱 name = 'get_quotes' allow_domain = [’quotes.toscrape.com’] start_urls = [’http://quotes.toscrape.com/’]# 設定規則 rules = ( # 對于quotes內容頁URL，調用parse_quotes處理， # 并以此規則跟進獲取的鏈接 Rule(LinkExtractor(allow=r’/page/d+’), callback=’parse_quotes’, follow=True), # 對于author內容頁URL，調用parse_author處理，提取數據 Rule(LinkExtractor(allow=r’/author/w+’), callback=’parse_author’) )# 提取內容頁數據方法 def parse_quotes(self, response): for quote in response.css('.quote'): yield {’content’: quote.css(’.text::text’).extract_first(), ’author’: quote.css(’.author::text’).extract_first(), ’tags’: quote.css(’.tag::text’).extract() } # 獲取作者數據方法 def parse_author(self, response): name = response.css(’.author-title::text’).extract_first() author_born_date = response.css(’.author-born-date::text’).extract_first() author_bron_location = response.css(’.author-born-location::text’).extract_first() author_description = response.css(’.author-description::text’).extract_first() return ({’name’: name, ’author_bron_date’: author_born_date, ’author_bron_location’: author_bron_location, ’author_description’: author_description })

步驟04: 運行爬蟲

scrapy crawl quotes

更多相關內容可查看本站專題：《Python Socket編程技巧總結》、《Python正則表達式用法總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家基于Scrapy框架的Python程序設計有所幫助。

Python 編程

上一條：Python批量將圖片灰度化的實現代碼下一條：Python實現AI換臉功能

相關文章：

1. Python如何實現感知器的邏輯電路2. JS實現表單中點擊小眼睛顯示隱藏密碼框中的密碼3. JS錯誤處理與調試操作實例分析4. asp讀取xml文件和記數5. python基于scrapy爬取京東筆記本電腦數據并進行簡單處理和分析6. 原生js實現的觀察者和訂閱者模式簡單示例7. Python ellipsis 的用法詳解8. 在終端啟動Python時報錯的解決方案9. vue 驗證兩次輸入的密碼是否一致的方法示例10. xml中的空格之完全解說

排行榜

					
					JS錯誤處理與調試操作實例分析
原生js實現的觀察者和訂閱者模式簡單示例
JS實現表單中點擊小眼睛顯示隱藏密碼框中的密碼
asp讀取xml文件和記數
Python ellipsis 的用法詳解
python基于scrapy爬取京東筆記本電腦數據并進行簡單處理和分析
在終端啟動Python時報錯的解決方案
Python如何實現感知器的邏輯電路
PHP實現基本留言板功能原理與步驟詳解
使用ProcessBuilder調用外部命令，并返回大量結果
簡體中文轉換為繁體中文的PHP函數
				

熱門標簽