python爬虫-Beautiful Soup库入门(四)

Ida ·
更新时间:2024-11-10
· 987 次阅读

python爬虫-Beautiful Soup库入门说明Beautiful Soup库安装Beautiful Soup库的引用Beautiful Soup库解析器Beautiful Soup类的基本元素例子tag标签tag的name(名字)tag的Attributes(属性)Tag的NavigableString(内容)Tag的Comment(注释)基于bs4库的HTML内容遍历方法下行遍历上行遍历平行遍历基于bs4库的HTML格式输出prettify()bs4库的编码 说明

Beautiful Soup库是一个HTML/XML的解析器,主要的功能是解析和提取 HTML/XML数据。

Beautiful Soup库安装

打开命令行使用pip安装Beautiful Soup第三方库

pip install beautifulsoup4 Beautiful Soup库的引用

安装时的名字是beautifulsoup4,但在python中引用这个库的名字是bs4,其中BeautifulSoup类是最经常用的

from bs4 import BeautifulSoup import bs4 Beautiful Soup库解析器

python对大小写比较敏感
BeautifulSoup对应一个HTML/XML文档的全部内容

soup = BeautifulSoup("data", "html.parser")
解释器 使用方法 条件
bs4的HTML解析器 BeautifulSoup( mk, ‘html.parser’) pip install beautifulsoup4
lxml的HTML解析器 BeautifulSoup(mk, ‘lxml’) pip install lxml
lxml的XML解析器 BeautifulSoup(mk, ‘xml’ ) pip install lxml
html5lib的解析器 BeautifulSoup( mk, ‘html5lib’) pip install html5lib
Beautiful Soup类的基本元素 例子

以下例子都由w3school源代码为例子

原创文章 22获赞 32访问量 3万+ 关注 私信 展开阅读全文
作者:week@eight



soup python爬虫 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号