Python 爬虫:requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息(博主信息、文章标题、文章链接) 爬取博主每篇文章的信息(访问、收藏) 合法刷访问量?

Iolanthe ·
更新时间:2024-09-20
· 768 次阅读

Python 爬虫:requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息(博主信息、文章标题、文章链接) 爬取博主每篇文章的信息(访问、收藏) 合法刷访问量? 关于 BeautifulSoup4

​ BeautifulSoup4 是爬虫必学的技能。BeautifulSoup 最主要的功能是从网页抓取数据,BeautifulSoup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。

​ BeautifulSoup 支持 Python 标准库中的 HTML 解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python 默认的解析器,lxml 解析器更加强大,速度更快,推荐使用 lxml 解析器。

​ Beautiful Soup官网:https://www.crummy.com/software/BeautifulSoup/

Python 安装

​ 网络上有很多优质的安装教程。

requests 安装

​ 最简单的方法:打开命令行,输入命令:pip install requests

BeautifulSoup4 安装

​ 可以访问官网 https://www.crummy.com/software/BeautifulSoup/ 查看安装方式。

​ 最简单的方法:打开命令行,输入命令:pip install beautifulsoup4

​ 或者是输入命令:pip3 install beautifulsoup4

​ 等待它安装完成,你就成功安装 BeautifulSoup4 了。

lxml 解析器安装

​ 最简单的方法:打开命令行,输入命令:pip install lxml

如果安装过程中出现其他问题或异常请自行百度,这不是本文章的重点。 关于 CSDN 个人博客主页

我们打开一个 CSDN 个人博客主页,以我自己的博客主页为例子,如下图所示:

可以看到我用红色框框起来的地方就是这个 CSDN 个人博客主页的链接 url,用于访问指定的网页使用。

原创文章 41获赞 7访问量 3万+ 关注 私信 展开阅读全文
作者:吴林瀚



爬虫 csdn 访问量 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号