文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：94日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. boot2docker無法啟動2. android - E/dalvikvm: Could not find class java.nio.file.Path,3. 請問一下各位老鳥我一直在學習獨孤九賤現在是在tp5 今天發現這個系列視頻沒有實戰4. tp6 事務閉包操作問題5. docker-compose 為何找不到配置文件？6. ddos - apache日志很多其它網址，什么情況？7. html - 這種錯位的時間軸怎么布局，然后用css實現？8. 使用uuid,并不能利用mysql的索引，有什么解決辦法？9. python - linux怎么在每天的凌晨2點執行一次這個log.py文件10. mysql數據庫每次查詢是一條線程嗎？

排行榜

					
					docker-compose 為何找不到配置文件？
boot2docker無法啟動
ddos - apache日志很多其它網址，什么情況？
請問一下各位老鳥 我一直在學習獨孤九賤 現在是在tp5 今天發現 這個系列視頻沒有實戰
tp6 事務閉包操作問題
android - E/dalvikvm: Could not find class java.nio.file.Path,
python - linux怎么在每天的凌晨2點執行一次這個log.py文件
docker不顯示端口映射呢？
android - 哪位大神知道java后臺的api接口的對象傳到前端后輸入日期報錯，是什么情況？求大神指點
這是什么情況？？？
html - 這種錯位的時間軸怎么布局，然后用css實現？
				

熱門標簽

国产综合久久一区二区三区