猫眼电影经典电影爬取

Ivy ·

更新时间:2024-11-10

· 909 次阅读

使用request、xpath爬取网址

》爬取该网址：猫眼电影之经典影片
》爬取内容，如图所示：
主要爬取：电影类型、主演、时间、片名和评分
在这里插入图片描述
》代码如下：

import requests
from lxml import etree
url = "https://maoyan.com/films?showType=3"
headers = {
    "Cookie": "_lxsdk_s=17188754dc5-9bf-d80-9e6%7C%7C9",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60"
}
response = requests.get(url=url, headers=headers)
response.encoding = "utf-8"
html = etree.HTML(response.text)
dd_list = html.xpath("//dl[@class='movie-list']//dd")
for item in dd_list:
    info = {}
    info["mv_title"] = item.xpath("./div[@class='channel-detail movie-item-title']/a/text()")[0]
    info["mv_tag"] = item.xpath(".//div[@class='movie-hover-title'][2]/text()")[1].strip()
    info["mv_star"] = item.xpath(".//div[@class='movie-hover-title'][3]/text()")[1].strip()
    info["mv_date"] = item.xpath(".//div[@class='movie-hover-title movie-hover-brief']/text()")[1].strip()
    if not item.xpath("./div[@class='channel-detail channel-detail-orange']//i[1]/text()"):
        info["mv_score"] = "暂无评分"
    else:
        first_p = item.xpath("./div[@class='channel-detail channel-detail-orange']//i[1]/text()")
        second_p = item.xpath("./div[@class='channel-detail channel-detail-orange']//i[2]/text()")
        info["mv_score"] = "".join(first_p) + "".join(second_p) + "分"
    print(info)

#解析：

1）熟练使用request，结合xpath获取爬虫内容；
2）猫眼电影网址有反爬策略，提取相关的cookie值带入即可正常返回网页源代码；
3）第18行，使用xpath语句获取字段，并使用列表索引获取数据；
4）第19行，.strip()方法用于去除数据中左右两边的空格；
5）第22行，对xpath语句进行判断某字段是否存在。用if not xpath语句进行判断；
6）第27行，将获取到的评分数据，从列表格式转化成字符串格式。使用python中的join()方法

ps：
关于 join()方法的使用：
》概述：join()方法用于将序列中的元素以指定的字符连接生成一个新的字符串。
》语法：str.join(sequence)。其中str表示需要用什么字符进行分割；sequence 表示要连接的元素序列
》示例：

mylist=['a','b','2','s']
res="".join(mylist)
print(res)
# 输出结果为：ab2s
# 若使用"|"字符，那么输出结果将为：a|b|2|s

end：
附上其他博主的文章：https://www.cnblogs.com/hongweijiang/p/12047927.html (Python列表与字符串相互转换的几种操作)
该join()方法参考自该文章

作者：ytraister

电影猫眼

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

javascript asp教程添加和修改

Hana 2020-04-27

873

Vuex,iView UI面包屑导航使用扩展详解

Jacinthe 2021-03-14

541

Python爬取用户观影数据并分析用户与电影之间的隐藏信息!

Leonie 2021-12-16

469

Python趣味爬虫之爬取爱奇艺热门电影

Chynna 2021-12-16

1042

教你怎么用python爬取爱奇艺热门电影

Gitana 2021-12-16

Python爬虫爬取爱奇艺电影片库首页的实例代码

Thirza 2021-12-16

416

python爬虫之你好,李焕英电影票房数据分析

Octavia 2021-12-16

机器深度学习二分类电影的情感问题

Octavia 2021-12-16

1528

基于Python实现电影售票系统

Willow 2022-01-14

601

Python爬虫实现热门电影信息采集

Chloe 2022-01-14

1320

鸿蒙系统微电影创作功能怎么使用?鸿蒙微电影创作使用方法

Hadara 2022-02-23

182

在豆瓣上找电影时如何将喜欢的电影下载

Veronica 2022-03-07

400

电脑看电影的时候鼠标不动自动重启怎么办？

Iria 2022-03-08

839

python 爬取豆瓣电影短评并利用wordcloud生成词云图

Serwa 2022-06-07

1256

JavaSE实现电影院系统

Pandora 2022-08-12

1056

C语言实现电影管理系统

Antonia 2022-08-12

429

Python获取时光网电影数据的实例代码

Maleah 2022-09-04

Python实现抓取腾讯视频所有电影的示例代码

Katherine 2022-10-19

1738

JS实现电影票选座的项目示例

Glenna 2022-10-19

614

Python爬虫实现抓取电影网站信息并入库

Pandora 2022-10-23

451

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座