Python爬虫之豆瓣TOP250爬取

Catherine ·

更新时间:2024-11-14

· 867 次阅读

%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20文章目录1.分析网页1.1为什么要分析网页1.2如何分析网页1.3打开编辑环境1.4生成链接2.请求网页2.1导入包2.2设置浏览器代理2.3请求服务器2.4请求服务器代码汇总3.xpath提取信息3.1获取xpath节点方法3.2提取内容3.2.1提取文本3.2.2提取链接3.2.3提取标签元素3.2.4提取评论人数4.正则表达式匹配信息4.1%20正则表达式匹配星级4.2正则表达式匹配评论人数4.3区分星级4.4%20正则表达式匹配数字5.提取第一页所有信息6.将爬取内容写入CSV文件7.代码汇总 1.分析网页 1.1为什么要分析网页

我们需要从一个网页中爬取东西时，如果对网页中有什么东西、网页如何构成都不清楚，我们是很难进行爬取的，所以这一步是为了后面爬取的方便实施。

1.2如何分析网页

在这里，我要爬取的是豆瓣Top250上的东西。首先，我们得进入该网页,查看它的网页结构。点击【下一页】，查看网页的URL(也就是它的链接），多换几页之后会发现有如下图所示规律：

1.3打开编辑环境

首先我们需要安装jupyter，使用Win+R,弹出一个框，输入cmd之后弹出一个黑框（控制台），然后使用pip%20install%20jupyter命令安装jupyter，安装成功后在电脑的G盘中执行以下步骤即可打开编辑环境：

新建文件夹在文件夹导航栏输入cmd回车在弹出的黑框（控制台）中输入%20jupyter%20notebook 1.4生成链接

利用我们发现的规律，使用for循环，生成链接，然后对生成的链接随便找几个来测试是否和原网页链接相同

for%20page%20in%20range(0,226,25):
%20%20%20%20url=%20'https://movie.douban.com/top250?start=%s&filter='%page
%20%20%20%20

2.请求网页

接下来就是向服务器发出请求了，我们先选择第一个链接来进行测试，完成本页所有内容的获取，然后再获取其他所有页面的信息

2.1导入包

这里需要用到requests这个，没有安装的话需要安装这个包，安装步骤如下：#pip安装%20pip%20install%20requests-------->win+r,运行--------->cmd,回车-------->输入pip%20install%20requests

2.2设置浏览器代理

在网页中点击右键，打开检查，选择Network，All，刷新网页，选择第一个文件，双击，选择headers

设置的浏览器代理必须为字典型，如：

headers={
%20%20%20%20'User-Agent':'Mozilla/5.0%20(Windows%20NT%2010.0;%20Win64;%20x64)%20AppleWebKit/537.36%20(KHTML,%20like%20Gecko)%20Chrome/78.0.3904.87%20Safari/537.36'
}

2.3请求服务器

请求源代码，向服务器发出请求,200代表成功，使用get（）获取

test_url%20是一个链接，第二个%20headers%20是用来做浏览器代理的内容

response=requests.get(url=test_url,headers=headers).text

2.4请求服务器代码汇总

#快捷键运行%20Ctrl+Enter
import%20requests
#pip安装%20pip%20install%20requests-------->win+r,运行--------->cmd,回车-------->输入pip%20install%20requests
test_url='https://movie.douban.com/top250?start=0&filter='%20#''格式化为字符串
#设置浏览器代理,一个字典
#请求源代码，向服务器发出请求,200代表成功
response=requests.get(url=test_url,headers=headers).text

3.xpath提取信息

xpath是按照HTML标签的方式进行定位的，谷歌浏览器自带有xpath，%20直接复制来就可以使用，简单方便，运行速度快

3.1获取xpath节点方法

3.2提取内容

我们使用xpath时，也必须先对网页进行%20lxml%20库中的%20etree解析%20，把它变为特有的树状形式，才能通过它进行节点定位。未安装lxml包的需要安装

from%20lxml%20import%20%20etree
#安装，pip%20install%20lxml
html_etree=etree.HTML(response)#看成一个筛子，树状

3.2.1提取文本

当我们提取标签内的文本时，需要在复制到的xpath后面加上/text()%20，告诉它说我需要提取的内容是一个标签呈现的数据，如《肖申克的救赎》:

肖申克的救赎

对应的xpath为：

//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[1]

提取文字：

name%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')
print%20(name)#数组形式
print%20(name[0])#字符串形式

结果为：

['肖申克的救赎']
肖申克的救赎

3.2.2提取链接

每一个链接都是在标签内的，通常放在src="%20"%20或者%20href="%20"%20之中，如：

xpath为：

//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a

提取链接：
提取链接时，需要在复制到的xpath后面加上/@href%20,%20指定提取链接

dy_url%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/@href')
print%20(dy_url)#数组形式
print%20(dy_url[0])#字符串形式

结果为

['https://movie.douban.com/subject/1292052/']
https://movie.douban.com/subject/1292052/

3.2.3提取标签元素

这个网页中电影的星级没有用几颗星的文本表示，而是标签表示的，其中，满星的表示和非满星的表示的标签不一样，如：

所以只需要取出%20class="%20"中的内容就可以得到星级了,复制它的xpath，和提取链接的方法一样，在后面加上%20/@class%20即可

rating%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[1]/@class')
print%20(rating)#数组形式
print%20(rating[0])#字符串形式

结果为：

['rating5-t']
rating5-t

3.2.4提取评论人数

xpath为：

//*[@id="content"]/div/div[1]/ol/li[4]/div/div[2]/div[2]/div/span[4]

提取人数

rating_num%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li[4]/div/div[2]/div[2]/div/span[4]/text()')
print%20(rating_num)#数组形式
print%20(rating_num[0])#字符串形式

结果为：

['1689452人评价']
1689452人评价

4.正则表达式匹配信息 4.1%20正则表达式匹配星级

我们需要把结果中的信息匹配出来，可以使用正则表达式，单独提取自己需要的信息，如星级，它都是以%20rating5-t%20方式呈现的，但是我们只需要它数字5位置的部分，所以需要进行二次提取。正则表达式中需要提取出来的地方用%20(.*?)%20替代，如

import%20re
test%20=%20"rating5-t"
text%20=%20re.findall('rating(.*?)-t',%20test)
print%20(text）

结果为：

['5']

4.2正则表达式匹配评论人数

我们在前面xpath提取到的数据格式为：%201056830人评价%20，保存的时候只需要数字即可，现在把数字提取出来：

test="1971789人评价"
text=re.findall('(.*?)人评价',test)
print(text[0])

结果为：

4.3区分星级

5------------>5分%20%20%20%20%20%2045-------------->4.5分
判断数字是两位数就除以10

rating%20=%20item.xpath('./div/div[2]/div[2]/div/span[1]/@class')[0]
%20%20%20%20%20%20%20%20rating%20=%20re.findall('rating(.*?)-t',%20rating)[0]
%20%20%20%20%20%20%20%20if%20len(rating)%20==%202:
%20%20%20%20%20%20%20%20%20%20%20%20star%20=%20int(rating)%20/%2010%20%20#int()转化为数字
%20%20%20%20%20%20%20%20else:
%20%20%20%20%20%20%20%20%20%20%20%20star%20=%20rating

4.4%20正则表达式匹配数字

import%20re%20
data%20=%20"1059232人评价"
num%20=%20re.sub(r'\D',%20"",%20data)
print(%20num)

结果为：

5.提取第一页所有信息

我们通过上面的%20xpath%20只能提取到一条信息，如果我们要提取所有的信息，就需要写一个%20for%20循环把它遍历出来。先复制几个电影名字的%20xpath来分析一下，如前三个的：

li%20标签前的作为父级，后面的为子集，用./%20代替父级的位置，改写为：

li%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li')
for%20item%20in%20li:
%20%20%20%20name%20=%20item.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]
%20%20%20%20print%20(name)

本页结果为：

肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
美丽人生
泰坦尼克号
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
海上钢琴师
三傻大闹宝莱坞
楚门的世界
机器人总动员
放牛班的春天
星际穿越
大话西游之大圣娶亲
熔炉
疯狂动物城
无间道
龙猫
教父
当幸福来敲门
怦然心动
触不可及

6.将爬取内容写入CSV文件

步骤：

打开文件夹放进文件夹关闭文件夹

#导入包
import%20csv
#%20创建文件夹并打开
fp%20=%20open("./豆瓣top250.csv",%20'a',%20newline='',%20encoding%20=%20'utf-8-sig')
writer%20=%20csv.writer(fp)%20#写入内容
#%20写入内容
writer.writerow(('排名',%20'名称',%20'链接',%20'星级',%20'评分',%20'评价人数'))
#关闭文件
fp.close()

7.代码汇总

import%20requests,%20csv,%20re
from%20lxml%20import%20etree
#设置浏览器代理,它是一个字典
headers%20=%20{
%20%20%20%20'User-Agent':'Mozilla/5.0%20(Windows%20NT%2010.0;%20Win64;%20x64)%20AppleWebKit/537.36%20(KHTML,%20like%20Gecko)%20Chrome/80.0.3987.149%20Safari/537.36'
}
#%20创建文件夹并打开
fp%20=%20open("./豆瓣top250.csv",%20'a',%20newline='',%20encoding%20=%20'utf-8-sig')
writer%20=%20csv.writer(fp)%20#我要写入
#%20写入内容
writer.writerow(('排名',%20'名称',%20'链接',%20'星级',%20'评分',%20'评价人数'))
for%20page%20in%20range(0,%20226,%2025):%20#226
%20%20%20%20print%20("正在获取第%s页"%page)
%20%20%20%20url%20=%20'https://movie.douban.com/top250?start=%s&filter='%page
%20%20%20%20
%20%20%20%20#请求源代码，向服务器发出请求,200代表成功，回退对其，Ctrl+]
%20%20%20%20reponse%20=%20requests.get(url%20=%20url,%20headers%20=%20headers).text
%20%20%20%20#%20快捷键运行，Ctrl+Enter
%20%20%20%20html_etree%20=%20etree.HTML(reponse)%20#%20看成一个筛子，树状
%20%20%20%20#%20过滤
%20%20%20%20li%20=%20html_etree.xpath('//*[@id="content"]/div/div[1]/ol/li')
%20%20%20%20for%20item%20in%20li:
%20%20%20%20%20%20%20%20#排名
%20%20%20%20%20%20%20%20rank%20=%20item.xpath('./div/div[1]/em/text()')[0]
%20%20%20%20%20%20%20%20#电影名称
%20%20%20%20%20%20%20%20name%20=%20item.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]
%20%20%20%20%20%20%20%20#链接
%20%20%20%20%20%20%20%20dy_url%20=%20item.xpath('./div/div[2]/div[1]/a/@href')[0]
%20%20%20%20%20%20%20%20#评分
%20%20%20%20%20%20%20%20rating%20=%20item.xpath('./div/div[2]/div[2]/div/span[1]/@class')[0]
%20%20%20%20%20%20%20%20rating%20=%20re.findall('rating(.*?)-t',%20rating)[0]
%20%20%20%20%20%20%20%20if%20len(rating)%20==%202:
%20%20%20%20%20%20%20%20%20%20%20%20star%20=%20int(rating)%20/%2010%20%20#int()转化为数字
%20%20%20%20%20%20%20%20else:
%20%20%20%20%20%20%20%20%20%20%20%20star%20=%20rating
%20%20%20%20#%20%20%20%20%20注释ctrl+?
%20%20%20%20%20%20%20%20rating_num%20=%20item.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
%20%20%20%20%20%20%20%20content%20=%20item.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0]
%20%20%20%20%20%20%20%20content%20=%20re.sub(r'\D',%20"",%20content)
#%20%20%20%20%20%20%20%20%20print%20(rank,%20name,%20dy_url,%20star,%20rating_num,%20content)
%20%20%20%20%20%20%20%20#%20写入内容
%20%20%20%20%20%20%20%20writer.writerow((rank,%20name,%20dy_url,%20star,%20rating_num,%20content))
fp.close()

jupyter结果：

正在获取第0页
正在获取第25页
正在获取第50页
正在获取第75页
正在获取第100页
正在获取第125页
正在获取第150页
正在获取第175页
正在获取第200页
正在获取第225页

CSV文件截屏：

作者：あ许�babyざ

top250 python爬虫 top Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

Python3 数据结构

Angie 2020-11-03

833

AppML Customers - 完整的应用程序

Pythia 2020-03-03

887

CentOS7安装调试Mysql数据库的步骤详解【实例】

Stephenie 2020-02-29

835

Docker部署Python应用的方法实现

Madge 2023-07-22

687

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座