详解如何用Python登录豆瓣并爬取影评

Glenna ·

更新时间:2024-11-10

· 1142 次阅读

一、需求背景

二、功能描述

三、技术方案

四、登录豆瓣

1.分析豆瓣登录接口

2.代码实现登录豆瓣

3.保存会话状态

4.这个Session对象是我们常说的session吗？

五、爬取影评

1.分析豆瓣影评接口

2.爬取一条影评数据

3.影评内容提取

4.批量爬取

六、分析影评

1.使用结巴分词

七、总结

上一篇我们讲过Cookie相关的知识，了解到Cookie是为了交互式web而诞生的，它主要用于以下三个方面：

会话状态管理（如用户登录状态、购物车、游戏分数或其它需要记录的信息）

个性化设置（如用户自定义设置、主题等）

浏览器行为跟踪（如跟踪分析用户行为等）

我们今天就用requests库来登录豆瓣然后爬取影评为例子，用代码讲解下Cookie的会话状态管理（登录）功能。

此教程仅用于学习，不得商业获利！如有侵害任何公司利益，请告知删除！

一、需求背景

之前猪哥带大家爬取了优酷的弹幕并生成词云图片，发现优酷弹幕的质量并不高，有很多介词和一些无效词，比如：哈哈、啊啊、这些、那些。。。而豆瓣口碑一直不错，有些书或者电影的推荐都很不错，所以我们今天来爬取下豆瓣的影评，然后生成词云，看看效果如何吧！

二、功能描述

我们使用requests库登录豆瓣，然后爬取影评，最后生成词云！

为什么我们之前的案例（京东、优酷等）中不需要登录，而今天爬取豆瓣需要登录呢？那是因为豆瓣在没有登录状态情况下只允许你查看前200条影评，之后就需要登录才能查看，这也算是一种反扒手段！

三、技术方案

我们看下简单的技术方案，大致可以分为三部分：

分析豆瓣的登录接口并用requests库实现登录并保存cookie

分析豆瓣影评接口实现批量抓取数据

使用词云做影评数据分析

方案确定之后我们就开始实际操作吧！

四、登录豆瓣

做爬虫前我们都是先从浏览器开始，使用调试窗口查看url。

1.分析豆瓣登录接口

打开登录页面，然后调出调试窗口，输入用户名和密码，点击登录。

这里猪哥建议输入错误的密码，这样就不会因为页面跳转而捕捉不到请求！上面我们便获取到登录请求的URL：https://accounts.douban.com/j/mobile/login/basic

因为是一个POST请求，所以我们还需要看看请求登录时携带的参数，我们将调试窗口往下拉查看Form Data。

2.代码实现登录豆瓣

得到登录请求URL和参数后，我们就可以来用requests库来写一个登录功能！

3.保存会话状态

上期我们在爬取优酷弹幕的时候我们是复制浏览器中的Cookie到请求头中这来来保存会话状态，但是我们如何让代码自动保存Cookie呢？

也许你见过或者使用过urllib库，它用来保存Cookie的方式如下：


cookie = http.cookiejar.CookieJar()
handler = urllib.request.HttpCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
opener(url)

但是前面我们介绍requests库的时候就说过：

requests库是一个基于urllib/3的第三方网络库，它的特点是功能强大，API优雅。由上图我们可以看到，对于http客户端python官方文档也推荐我们使用requests库，实际工作中requests库也是使用的比较多的库。

所以今天我们来看看requests库是如何优雅的帮我们自动保存Cookie的？我们来对代码做一点微调，使之能自动保存Cookie维持会话状态！

上述代码中，我们做了两处改动：

在最上面增加一行s = requests.Session()，生成Session对象用来保存Cookie

发起请求不再是原来的requests对象，而是变成了Session对象

我们可以看到发起请求的对象变成了session对象，它和原来的requests对象发起请求方式一样，只不过它每次请求会自动带上Cookie，所以后面我们都用Session对象来发起请求！

4.这个Session对象是我们常说的session吗？

讲到这里也许有同学会问：requests.Session对象是不是我们常说的session呢？

答案当然不是，我们常说的session是保存在服务端的，而requests.Session对象只是一个用于保存Cookie的对象而已，我们可以看看它的源码介绍

所以大家千万不要将requests.Session对象与session技术搞混了！

五、爬取影评

我们实现了登录和保存会话状态之后，就可以开始干正事啦！

1.分析豆瓣影评接口

首先在豆瓣中找到自己想要分析的电影，这里猪哥选择一部美国电影**《荒野生存》**，因为这部电影是猪哥心中之最，没有之一！

然后下拉找到影评，调出调试窗口，找到加载影评的URL

2.爬取一条影评数据

但是爬取下来的是一个HTML网页数据，我们需要将影评数据提取出来

3.影评内容提取

上图中我们可以看到爬取返回的是html，而影评数据便是嵌套在html标签中，如何提取影评内容呢？

这里我们使用正则表达式来匹配想要的标签内容，当然也有更高级的提取方法，比如使用某些库（比如bs4、xpath等）去解析html提取内容，而且使用库效率也比较高，但这是我们后面的内容，我们今天就用正则来匹配！

我们先来分析下返回html 的网页结构

我们发现影评内容都是在<span class="short"></span>这个标签里，那我们就可以写正则来匹配这个标签里的内容啦！

检查下提取的内容

4.批量爬取

我们爬取、提取、保存完一条数据之后，我们来批量爬取一下。根据前面几次爬取的经验，我们知道批量爬取的关键在于找到分页参数，我们可以很快发现URL中有一个start参数便是控制分页的参数。

这里只爬取了25页就爬完，我们可以去浏览器中验证一下，是不是真的只有25页，猪哥验证过确实只有25页！

六、分析影评

数据抓取下来之后，我们就来使用词云分析一下这部电影吧！

基于使用词云分析的案例前面已经讲过两个了，所以猪哥只会简单的讲解一下！

1.使用结巴分词

因为我们下载的影评是一段一段的文字，而我们做的词云是统计单词出现的次数，所以需要先分词！

2.使用词云分析

最终成果：

从这些词中我们可以知道这是关于一部关于追寻自我与现实生活的电影，猪哥裂墙推荐！！！

七、总结

今天我们以爬取豆瓣为例子，学到了不少的东西，来总结一下：

学习如何使用requests库发起POST请求

学习了如何使用requests库登录网站

学习了如何使用requests库的Session对象保持会话状态

学习了如何使用正则表达式提取网页标签中的内容

鉴于篇幅有限，爬虫过程中遇到的很多细节和技巧并没有完全写出来，所以希望大家能自己动手实践

源码地址：https://github.com/pig6/douban_comments_spider

到此这篇关于详解如何用Python登录豆瓣并爬取影评的文章就介绍到这了,更多相关Python爬取影评内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

用python 豆瓣 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

利用HTML5 Canvas制作一个简单的打飞机游戏

Diane 2020-03-17

525

JavaScript字符串处理常见操作方法小结

Alysa 2021-06-22

678

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

python人工智能算法之线性回归实例

Diane 2023-08-28

527

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座