文章詳情頁
python - scrapy 處理 文章 分頁的內容
瀏覽:94日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁,然后想把這些內容頁爬下來,拼接成一頁,然后再放入數據庫。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢?
問題解答
回答1:找到分頁接口url
回答2:找到那個下一頁的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動掃描符合的url
相關文章:
1. boot2docker無法啟動2. android - E/dalvikvm: Could not find class java.nio.file.Path,3. 請問一下各位老鳥 我一直在學習獨孤九賤 現在是在tp5 今天發現 這個系列視頻沒有實戰4. tp6 事務閉包操作問題5. docker-compose 為何找不到配置文件?6. ddos - apache日志很多其它網址,什么情況?7. html - 這種錯位的時間軸怎么布局,然后用css實現?8. 使用uuid,并不能利用mysql的索引,有什么解決辦法?9. python - linux怎么在每天的凌晨2點執行一次這個log.py文件10. mysql數據庫每次查詢是一條線程嗎?
排行榜
