爬虫入门实战系列（六）正则/bs4/xpath比较-爬取公众号文章正文

Psyche ·

更新时间:2024-11-10

· 760 次阅读

目标：爬取介个微信公众号文章的正文内容

https://mp.weixin.qq.com/s/DNtuRvc9NM88eBEX61IpAQ

(也就是红框框里面的内容啦~)

先观察一波网页结构
在浏览器网页界面，用熟悉的F12，及快捷键组合“Shift+Ctrl+c”，很容易就定位到正文内容的标签，是在一堆section标签，里的span标签里。

PS：在观察网页结构时，↓会留意到这个微信网页是有JavaScript加载的内容的（script就是描述js内容属性的典型标签~），但是！这次咱选择爬取的文字内容，并非包含在js相关标签内，试试看果然是这样的~

学习使用正则爬取 简述正则
首先，什么是正则？-个人理解它是一种描述文本信息的语法结构；

那么，为什么要用正则呢？-我截取了一部分来自菜鸟教程的介绍：

正则其实应用广泛，在爬虫学习实践方面，我们可以用正则语法，去匹配定位网页编码中的字符内容；还可以用正则语法进行字符串内的截取、替换操作，从而获得规整（理想）格式的字符串数据；比较于bs库、lxml库的网页内容定位，用正则语法的方式也可以发挥同样的内容定位作用。
py爬虫中的正则用法
详细的可以详阅菜鸟编程：

Python 正则表达式

这里咱参考菜鸟编程的说明，选择性介绍：

1.首先我们需要引入re模块（库），从而为python提供完整地正则表达式功能；

2.使用re.match()函数可以从字符串的起始位置（因为有这个限制，用起来似乎不大灵活，就不详叙哩~），匹配符合要求正则语法的字符串。

3.使用re.search()函数，可以扫描整个字符串，并返回第一个成功的匹配（但只能匹配第一个，爬虫一般也是匹配多个相同规则的内容，也不详述哩~）

*4.使用re.sub(),可以替换/删除字符串中的匹配项，咱一般直接用str下面的.replace()方法去实现同样的操作，检索查询了解到re下的.sub()方法稍微更强大一些，比如可以把多种不同类型的字符统一替换、删除。

另外str字符串处理相关的.strip()、.split()、.join()方法也是极为常用的，.strip()可以高效处理字符串首尾的空格、换行等多余占位符；.split()可以根据字符串中的分隔符，将单一字符串拆分；.join()则可以将多个字符串合并，并且可以选择插入间隔分隔符。

5.re.compile()函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。（后面这俩这里不细说，这个也不细说啦~）

*6.re.findall()函数，用于在字符串中找到正则表达式所匹配的所有子串，并返回一个列表（返回list类型），如果没有找到匹配的，则返回空列表。这个咱用的最多，可以一次匹配所有符合正则表达式的字符串内容~

类似的re.finditer()，在字符串中找到正则表达式所匹配的所有子串后，则以迭代器的方式返回（也就是要用for...in...来遍历读取结果）。

另外列一些常用的正则表达式语法：

^ 匹配字符串的开头
$ 匹配字符串的末尾。
. 匹配任意字符，除了换行符
[^...] 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re* 匹配0个或多个的表达式。
re+ 匹配1个或多个的表达式。
re? 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n, m} 匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a| b 匹配a或b
(re) 对正则表达式分组并记住匹配的文本
\s 匹配任意空白字符，等价于 [\t\n\r\f].
\S 匹配任意非空字符
\d 匹配任意数字，等价于 [0-9].
\D 匹配任意非数字
特别要提贪婪匹配和非贪婪匹配，贪婪匹配就是为了不漏就尽可能多的匹配，往往通过在表达式内，尤其末尾加*号来实现，因为*号代表可以匹配0到多个符合正则表达式的字符串；非贪婪匹配则常通过搭配?号实现，即匹配0个或1个就好了（知足哈~）。
正则实战爬取部分
先requests一波获取返回请求，没带headers也过了哈哈，返回200系。
import requests url='https://mp.weixin.qq.com/s/DNtuRvc9NM88eBEX61IpAQ' html=requests.get(url) html 引入re库，写一下正则规则，然后从html.text，即网页编码文本从匹配所有符合项： import re content=re.findall(r'rgb$63\, 63\, 63$\;\"\>(.*?)\<\/span',html.text) content #看一下content列表里的内容，发现正文应该都在里面了，虽然还有一些无关的占位符标签这里的正则表达式是这么写的呢？首先咱观察一下html.text，并复制一截正文内容，使用ctrl+f手动查找定位到字符串附近，然后观察发现正文字符串都为一个span标签包裹着（注意看涂黄部分，有规律滴~）//这个手动定位过程和在浏览器控制台的定位是一样的哈~ 咱复制一段下来,包含正文内容的各个span标签差不多都这样子： 2月7日晚上，西安高...的通知：书写对应的正则，是这样个过程： 2月7日晚上，西安高...的通知： r'' #1先一个转义字符r和'' r'rgb(63, 63, 63);">2月7日晚上，西安高...的通知：' #2把正文及两侧的标签内容复制进''，咱这里右边是完整的，左边没整完整的，嫌长，只要复制到的两侧内容是独特的就不一定要完整放入 r'rgb(63, 63, 63);">(.*?)' #3把正文内容用正则语法替换，注意要非贪婪模式，贪婪模式也可以试试哈 r'rgb$63\, 63\, 63$\;\"\>(.*?)\' #4在原来两侧标签所有符号前面添加转义符\，把特殊符号都转译成程序能识别的；于是就写完收工~ .findall()找到html.text中的正则后，print一下↑，其实正文内容已经都在content这个列表里了，但还有一些多余的占位符，于是咱就遍历content这个列表，然后把占位符用空字符replace掉（就是删了它啦~），然后用之前讲过的with open方式，写入到txt文件中，打开新产生的文件，就是图右的效果啦~ 附code： import requests import re url='https://mp.weixin.qq.com/s/DNtuRvc9NM88eBEX61IpAQ' html=requests.get(url) html.text file='C:/Users/lgb11/Desktop/wenzhang.txt' content=re.findall(r'rgb$63\, 63\, 63$\;\"\>(.*?)\' ,html.text) print(content) for i in content: i=i.replace(' ','') with open(file,'a') as f: f.write(i+'\n') 最后用bs4和xpath另外两种定位方式比较看看前面说了，该网页虽然有js，但本次待爬取的正文内容不受影响，那么前面讲过的两种定位方式beautifulsoup和xpath应该都OK的，这两种方法这里也不细讲了，直接看看代码和效果叭~ 先是beautifulsoup的可以看到，非常高效、美观，对比re正则的，没有多余的占位符出来然后是xpath的也还可以，不过xpath把占位符都解析出来了（占位符里没有内容，所有就None哈~），就没那么干净啦~ 咚唔原创文章 15获赞 3访问量 621 关注私信展开阅读全文作者：咚唔公众号爬虫实战正则 XPath

1024 个赞编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号相关文章 Bootstrap 下拉菜单（Dropdown）插件 Ros 2020-09-10 662 NumPy 数据类型 Grace 2021-01-07 588 PHP析构函数destruct与垃圾回收机制的讲解 Ebony 2021-02-05 984 important的妙用解决firefox和ie的css兼容问题 Flower 2020-11-13 940 css文字控制与css文本样式示例和属性 Carmen 2020-06-25 665 MySQL数据库复合查询操作实战 Endora 2023-05-13 516 Docker安装部署neo4j的实战过程 Bertha 2023-05-13 925 Python3.x基础实战检查磁盘可用空间 Jacinda 2023-05-13 1195 selenium鼠标操作实战案例详解 Ula 2023-05-15 160 正则表达式 - 使用总结 Miette 2023-06-06 1786 python中如何使用正则表达式提取数据 Malinda 2023-06-06 1220 Mybatis-plus操作json字段实战教程 Nora 2023-07-18 548 Python如何使用正则表达式识别代码中的中文、英文和数字 Serafina 2023-07-19 1832 正则表达式之字符组简记法与字符组运算 Kathy 2023-07-19 1783 正则表达式之字符组[ ](Character Classes) Nora 2023-07-19 316 正则基础之捕获组(capture group) Pandora 2023-07-19 450 Web 前端常用正则校验规则整理(常用示例) Tani 2023-07-19 416 notepad++中使用正则表达式处理数据的步骤 Tanisha 2023-07-19 416 SQL DNSlog注入实战 Dagny 2023-07-20 239 oracle分区表创建(自动按年、月、日分区)实战记录 Roselani 2023-07-20 1764

我要提问致谢帮助他人，成就自己。人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。 1024问感谢每一位朋友的帮助和支持。软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座

^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字