BeautifulSoup4 是爬虫必学的技能。BeautifulSoup 最主要的功能是从网页抓取数据,BeautifulSoup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。
BeautifulSoup 支持 Python 标准库中的 HTML 解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python 默认的解析器,lxml 解析器更加强大,速度更快,推荐使用 lxml 解析器。
Beautiful Soup官网:https://www.crummy.com/software/BeautifulSoup/
Python 安装 网络上有很多优质的安装教程。
requests 安装 最简单的方法:打开命令行,输入命令:pip install requests
BeautifulSoup4 安装 可以访问官网 https://www.crummy.com/software/BeautifulSoup/ 查看安装方式。
最简单的方法:打开命令行,输入命令:pip install beautifulsoup4
或者是输入命令:pip3 install beautifulsoup4
等待它安装完成,你就成功安装 BeautifulSoup4 了。
lxml 解析器安装 最简单的方法:打开命令行,输入命令:pip install lxml
如果安装过程中出现其他问题或异常请自行百度,这不是本文章的重点。 关于 CSDN 个人博客主页我们打开一个 CSDN 个人博客主页,以我自己的博客主页为例子,如下图所示:
可以看到我用红色框框起来的地方就是这个 CSDN 个人博客主页的链接 url,用于访问指定的网页使用。
原创文章 41获赞 7访问量 3万+
关注
私信
展开阅读全文
作者:吴林瀚