文章詳情頁

Python爬蟲必備之XPath解析庫

瀏覽：4日期：2022-06-17 09:45:54

目錄一、簡介二、安裝三、節點3.1 選取節點3.2 選取未知節點3.3 節點關系四、XPath實例一、簡介

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，并且 XQuery 和 XPointer 都構建于 XPath 表達之上。

Xpath解析庫介紹：數據解析的過程中使用過正則表達式, 但正則表達式想要進準匹配難度較高, 一旦正則表達式書寫錯誤, 匹配的數據也會出錯。

網頁由三部分組成: HTML, Css, JavaScript, HTML頁面標簽存在層級關系, 即DOM樹, 在獲取目標數據時可以根據網頁層次關系定位標簽, 在獲取標簽的文本或屬性。

二、安裝

pip install lxml三、節點3.1 選取節點

XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿著路徑或者 step 來選取的。下面列出了最有用的路徑表達式：

表達式描述 nodename 選取此節點的所有子節點。 / 從根節點選取。 // 從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。 … 選取當前節點的父節點。 . 選取當前節點。 @ 選取屬性。 3.2 選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符描述 * 匹配任何元素節點。 @* 匹配任何屬性節點。 node() 匹配任何類型的節點。

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果：

路徑表達式結果 /bookstore/* 選取 bookstore 元素的所有子元素。 //* 選取文檔中的所有元素。 //title[@*] 選取所有帶有屬性的 title 元素。 3.3 節點關系

父（Parent）

每個元素以及屬性都有一個父。在下面的例子中，book 元素是 title、author、year 以及 price 元素的父：

<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book>

子（Children）

元素節點可有零個、一個或多個子。在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book>

同胞（Sibling）

擁有相同的父的節點在下面的例子中，title、author、year 以及 price 元素都是同胞：

<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book>

先輩（Ancestor）

某節點的父、父的父，等等。在下面的例子中，title 元素的先輩是 book 元素和 bookstore 元素：

<bookstore><book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book></bookstore>

后代（Descendant）

某個節點的子，子的子，等等。在下面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：

<bookstore><book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book></bookstore>四、XPath實例

爬取糗事百科

import requests# 導包from lxml import etreeimport osbase_url = ’https://www.qiushibaike.com/video/’headers = { ’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36’}res = requests.get(url=base_url, headers=headers)html = res.content.decode(’utf-8’)# xpath解析tree = etree.HTML(html)# 標題content = tree.xpath(’//*/a/div[@class='content']/span/text()’)# 視頻video_list = tree.xpath(’//*/video[@controls='controls']/source/@src’)index = 0for i in video_list: # 獲取視頻二進制流 video_content = requests.get(url= ’https:’ + i,headers=headers).content # 標題 title_1 = content[0].strip(’n’) # 將視頻二進制寫入文件 with open(f’Video/{title_1}.mp4’,’wb’) as f:f.write(video_content) index += 1

到此這篇關于Python爬蟲必備之XPath解析庫的文章就介紹到這了,更多相關XPath解析庫內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：教你如何使用Python Tkinter庫制作記事本下一條：Python和Pycharm 環境部署詳細步驟

相關文章：

1. IDEA中 Getter、Setter 注解不起作用的問題如何解決2. asp讀取xml文件和記數3. Android CountDownTimer案例總結4. 多個SpringBoot項目采用redis實現Session共享功能5. python利用opencv實現顏色檢測6. Python 中如何使用 virtualenv 管理虛擬環境7. 每日六道java新手入門面試題,通往自由的道路第二天8. 簡體中文轉換為繁體中文的PHP函數9. CSS自定義滾動條樣式案例詳解10. PHP實現基本留言板功能原理與步驟詳解

排行榜

					
					asp讀取xml文件和記數
IDEA中 Getter、Setter 注解不起作用的問題如何解決
PHP實現基本留言板功能原理與步驟詳解
python利用opencv實現顏色檢測
每日六道java新手入門面試題,通往自由的道路第二天
簡體中文轉換為繁體中文的PHP函數
解決docker與vmware的沖突問題
多個SpringBoot項目采用redis實現Session共享功能
讓你的PHP同時支持GIF、png、JPEG
Android CountDownTimer案例總結
CSS自定義滾動條樣式案例詳解
				

熱門標簽

国产综合久久一区二区三区