【爬虫学得好，基础少不了】：XPath语法和lxml模块(详解)

Opal ·

更新时间:2024-11-13

· 710 次阅读

文章目录一、什么是XPath？二、xpath helper插件三、xpath helper安装使用方法四、XPath语法4.1 节点语法4.2 节点实例4.3 谓语（Predicates）4.4 选取未知节点4.5 选取若干路径五、XPath 轴5.1 轴常用语法5.2 位置路径表达式5.3 步（step）的用法：5.4 步的语法：5.5 实例六、XPath 运算符6.1 XPath 表达式中常用运算符七、XPath其他7.1 使用方式：7.2 需要注意的知识点：八、lxml库8.1 基本使用：8.2 从文件中读取html代码：8.3 在lxml中使用xpath语法8.4 代码实例 一、什么是XPath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

二、xpath helper插件

xpath helper插件是一款免费的chrome爬虫网页解析工具。可以帮助用户解决在获取xpath路径时无法正常定位等问题。该插件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码，同时你还能对查询出来的代码进行编辑，而编辑出的结果将立即显示在旁边的结果框中。

三、xpath helper安装使用方法

Chrome插件XPath Helper。

安装方法：

https://download.csdn.net/download/weixin_42444693/12265783 ，下载安装包解压到本地。 (本人实测上传，记得看压缩包说明)

谷歌浏览器输入 chrome://extensions/ 进入拓展程序界面

打开开发者模式，选择加载已解压的扩展程序，选择刚刚解压的文件路径打开即可

重启浏览器使用

提示：如果删除文件夹会导致拓展功能无法使用，最好不要将压缩包解压到桌面安装使用

四、XPath语法

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

4.1 节点语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。

4.2 节点实例

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

4.3 谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()❤️]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=‘eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

4.4 选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

4.5 选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

五、XPath 轴

轴可定义相对于当前节点的节点集。

5.1 轴常用语法

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。
child	选取当前节点的所有子元素。
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
following	选取文档中当前节点的结束标签之后的所有节点。
namespace	选取当前节点的所有命名空间节点。
parent	选取当前节点的父节点。
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。

5.2 位置路径表达式

位置路径可以是绝对的，也可以是相对的。

绝对路径起始于正斜杠( / )，而相对路径不会这样。在两种情况中，位置路径均包括一个或多个步，每个步均被斜杠分割：

绝对位置路径：

/step/step/...

相对位置路径：

step/step/...

每个步均根据当前节点集之中的节点来进行计算。

5.3 步（step）的用法：

轴（axis）

定义所选节点与当前节点之间的树关系

节点测试（node-test）

识别某个轴内部的节点

零个或者更多谓语（predicate）

更深入地提炼所选的节点集

5.4 步的语法：

轴名称::节点测试[谓语]

5.5 实例

例子	结果
child::book	选取所有属于当前节点的子元素的 book 节点。
attribute::lang	选取当前节点的 lang 属性。
child: xpath语法爬虫 lxml XPath 1024 个赞编辑举报需要登录后方可回复, 如果你还没有账号请注册新账号相关文章 Bootstrap 下拉菜单（Dropdown）插件 Ros 2020-09-10 662 ASP.NET Core依赖注入系列教程之服务的注册与提供 Levana 2020-11-14 972 important的妙用解决firefox和ie的css兼容问题 Flower 2020-11-13 940 正则表达式应用之提炼百度歌词的实现代码 Oriel 2021-05-30 640 使用selenium+chromedriver+xpath爬取动态加载信息 Tesia 2022-10-23 10 爬虫逆向抖音新版signature分析案例 Hazel 2022-10-23 1443 python异步爬虫之多线程 Nancy 2022-10-23 231 基于Python3制作一个带GUI界面的小说爬虫工具 Bonita 2022-10-23 1611 python爬虫指南之xpath实例解析(附实战) Alanni 2022-10-23 1444 一篇文章带你了解Python之Selenium自动化爬虫 Liana 2022-10-23 1206 Python-Selenium自动化爬虫 Jenna 2022-10-23 1696 c#实现爬虫程序 Tia 2022-10-24 86 Python 文档解析lxml库的使用详解 Dolly 2022-11-06 1028 详解C#如何利用爬虫技术实现快捷租房 Bambi 2022-11-07 1010 PyCharm软件无法安装lxml库的问题及解决 Tani 2023-01-04 1178 Python用yieldfrom实现异步协程爬虫的实践 Tia 2023-01-19 1481 python利用lxml库剩下操作svg图片 Dulcea 2023-01-23 573 爬虫训练前端基础Bootstrap5排版表格图像 Rhea 2023-02-26 6 Python之lxml安装失败的解决 Radinka 2023-02-26 847 Python网络爬虫之获取网络数据 Tricia 2023-04-30 686 我要提问致谢帮助他人，成就自己。人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。 1024问感谢每一位朋友的帮助和支持。软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座 © 2021 1024问 MIT 京ICP备11031391号-29

例子

结果

child::book

选取所有属于当前节点的子元素的 book 节点。

attribute::lang

选取当前节点的 lang 属性。

child:

xpath语法爬虫 lxml XPath

1024 个赞