python爬虫学习笔记--BeautifulSoup4库的使用详解

Zahara ·

更新时间:2024-09-20

· 1953 次阅读

使用范例

常用的对象–Tag

常用的对象–NavigableString

常用的对象–BeautifulSoup

常用的对象–Comment

对文档树的遍历

tag中包含多个字符串的情况

.stripped_strings 去除空白内容

搜索文档树–find和find_all

select方法(各种查找)

获取内容

总结

使用范例


from bs4 import BeautifulSoup
#创建 Beautiful Soup 对象
# 使用lxml来进行解析
soup = BeautifulSoup(html,"lxml")
print(soup.prettify())

返回结果

常用的对象–Tag

就是 HTML 中的一个个标签

在上面范例的基础上添加


from bs4 import BeautifulSoup
#创建 Beautiful Soup 对象
# 使用lxml来进行解析
soup = BeautifulSoup(html,"lxml")
#print(soup.prettify())
#创建 Beautiful Soup 对象
soup = BeautifulSoup(html,'lxml')
print (soup.title)#None因为这里没有tiele标签所以返回none
print (soup.head)#None因为这里没有head标签所以返回none
print (soup.a)#返回 <a class="fill-dec" href="//my.csdn.net" target="_blank">编辑自我介绍，让更多人了解你<span class="write-icon"></span></a>
print (type(soup.p))#返回 <class 'bs4.element.Tag'>
print( soup.p)

其中print( soup.p)

返回结果为

同样地，在上面地基础上添加


print (soup.name)# [document] #soup 对象本身比较特殊，它的 name 即为 [document]


print (soup.head.name)#head #对于其他内部标签，输出的值为标签本身的名称


print (soup.p.attrs)##把p标签的所有属性打印出来,得到的类型是一个字典。


print (soup.p['class'])#获取P标签下地class标签


soup.p['class'] = "newClass"
print (soup.p) # 可以对这些属性和内容等等进行修改

常用的对象–NavigableString

前面地基础上添加


print (soup.p.string)
# The Dormouse's story
print (type(soup.p.string))
# <class 'bs4.element.NavigableString'>thon

返回结果

常用的对象–BeautifulSoup

beautiful soup对象表示文档的全部内容。大多数情况下，它可以被视为标记对象。它支持遍历文档树并搜索文档树中描述的大多数方法因为Beauty soup对象不是真正的HTML或XML标记，所以它没有名称和属性。但是，有时查看其内容很方便。Name属性，因此美丽的汤对象包含一个特殊属性。值为“[文档]”的名称


print(soup.name)
#返回 '[document]'

常用的对象–Comment

用于解释注释部分的内容


markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)
# <class 'bs4.element.Comment'>

对文档树的遍历

在上面的基础上添加


head_tag = soup.div
# 返回所有子节点的列表
print(head_tag.contents)

同理


head_tag = soup.div
# 返回所有子节点的迭代器
for child in head_tag.children:
    print(child)

tag中包含多个字符串的情况

可用 .strings 来循环获取


for string in soup.strings:
    print(repr(string))

.stripped_strings 去除空白内容


for string in soup.stripped_strings:
    print(repr(string))

搜索文档树–find和find_all

找到所有


print(soup.find_all("a",id='link2'))

find方法是找到第一个满足条件的标签后立即返回，返回一个元素。find_all方法是把所有满足条件的标签都选到，然后返回。

select方法(各种查找)


#通过标签名查找：
print(soup.select('a'))
#通过类名查找：
#通过类名，则应该在类的前面加一个'.'
print(soup.select('.sister'))
#通过id查找：
#通过id查找，应该在id的名字前面加一个＃号
print(soup.select("#link1"))

查找a标签返回的结果

其他因为网页本身没有，返回的是一个空列表

组合查找


print(soup.select("p #link1"))#查找 p 标签中，id 等于 link1的内容

子标签查找


print(soup.select("head > title"))

通过属性查找


print(soup.select('a[href="http://example.com/elsie"]'))#属性与标签属同一节点，中间不能有空格

获取内容

先查看类型


print (type(soup.select('div')))


for title in soup.select('div'):
    print (title.get_text())


print (soup.select('div')[20].get_text())#选取第20个div标签的内容

总结

本篇文章就到这里了，希望能给你带来帮助，也希望您能够多多关注软件开发网的更多内容!

学习笔记学习 python爬虫 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

AppML Customers - 完整的应用程序

Pythia 2020-03-03

887

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

css控制边界与边框示例(内边距、外边距使用方法)

Halima 2021-06-19

620

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座