文章詳情頁

Python通過正則庫爬取淘寶商品信息代碼實例

瀏覽：3日期：2022-08-04 18:12:50

使用正則庫爬取淘寶商品的商品信息，首先我們需要確定想要爬取的對象

我們在淘寶里搜索“python”,出來的結果

Python通過正則庫爬取淘寶商品信息代碼實例

從url連接中可以得到搜索商品的關鍵字是“q=”，所以我們要用的起始url為：https://s.taobao.com/search?q=python

然后翻頁，經過對比發現，翻頁后，變化的關鍵字是s，每次翻頁，s便以44的倍數增長（可以數一下每頁顯示的商品數量，剛好是44）所以可以根據關鍵字“s=”，來設置爬取的深度（爬取多少頁）

右鍵查看源碼，商品名稱可能的關鍵字是“title”和“raw_title”，進一步多看幾個商品的名稱，發現選取“raw_title”比較合適；商品價格自然就是“view_price”(通過比對淘寶商品展示頁面)；所以商品名稱和商品價格分別是以'raw_title':'名稱'和'view_price':'價格'，這樣的鍵/值對的形式展示的。

# coding:utf-8import requestsimport regoods = ’水杯’url = ’https://s.taobao.com/search?q=’ + goodsr = requests.get(url=url, timeout=10)html = r.texttlist = re.findall(r’'raw_title':'.*?'’, html) # 正則提取商品名稱plist = re.findall(r’'view_price':'[d.]*'’, html) # 正則提示商品價格print(tlist)print(plist)print(type(plist)) # 正則表達式提取出的商品名稱和商品價格都是以列表形式存儲數據的

利用for循環，把每個商品的名稱和價格組成一個列表，然后把這寫列表再追加到一個大列表中：

goodlist = []for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數簡單說就是用于去掉字符串的引號 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price]) # 把每個商品的名稱和價格組成一個小列表，然后把所有商品組成的列表追加到一個大列表中 print(goodlist)

大概的思路就是這樣的。

def get_html(url): '''獲取源碼html''' try: r = requests.get(url=url, timeout=10) r.encoding = r.apparent_encoding return r.text except: print('獲取失敗')def get_data(html, goodlist): '''使用re庫解析商品名稱和價格 tlist:商品名稱列表 plist:商品價格列表''' tlist = re.findall(r’'raw_title':'.*?'’, html) plist = re.findall(r’'view_price':'[d.]*'’, html) for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數簡單說就是用于去掉字符串的引號 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price])def write_data(list, num): # with open(’E:/Crawler/case/taob2.txt’, ’a’) as data: # print(list, file=data) for i in range(num): # num控制把爬取到的商品寫進多少到文本中 u = list[i] with open(’E:/Crawler/case/taob.txt’, ’a’) as data: print(u, file=data)def main(): goods = ’水杯’ depth = 3 # 定義爬取深度，即翻頁處理 start_url = ’https://s.taobao.com/search?q=’ + goods infoList = [] for i in range(depth): try: url = start_url + ’&s=’ + str(44 * i) # 因為淘寶顯示每頁44個商品，第一頁i=0,一次遞增 html = get_html(url) get_data(html, infoList) except: continue write_data(infoList, len(infoList))if __name__ == ’__main__’: main()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

淘寶 Python

上一條：python實現字符串和數字拼接下一條：基于Python爬取愛奇藝資源過程解析

相關文章：

1. CSS3實例分享之多重背景的實現(Multiple backgrounds)2. 得到XML文檔大小的方法3. 如何在jsp界面中插入圖片4. jsp實現textarea中的文字保存換行空格存到數據庫的方法5. phpstorm斷點調試方法圖文詳解6. ASP常用日期格式化函數 FormatDate()7. JavaScrip簡單數據類型隱式轉換的實現8. XML入門的常見問題(二)9. ASP.NET Core實現中間件的幾種方式10. 在JSP中使用formatNumber控制要顯示的小數位數方法

排行榜

					
					Android中SeekBar拖動條使用方法詳解
IntelliJ IDEA創建web項目的方法
idea設置提示不區分大小寫的方法
Dockerfile 中 VOLUME 與 docker -v 的區別說明
在JSP中使用formatNumber控制要顯示的小數位數方法
Docker 制作鏡像Dockerfile和commit操作
如何在jsp界面中插入圖片
得到XML文檔大小的方法
詳談ajax返回數據成功 卻進入error的方法
php的mysql性能優化
ASP.NET Core實現中間件的幾種方式
				

熱門標簽

国产综合久久一区二区三区