Python网络爬虫数据采集实战：Scrapy框架爬取QQ音乐存入MongoDB

Agatha ·

更新时间:2024-11-11

· 883 次阅读

通过前七章的学习，相信大家对整个爬虫有了一个比较全貌的了解，其中分别涉及四个案例：静态网页爬取、动态Ajax网页爬取、Selenium浏览器模拟爬取和Fillder今日头条app爬取，基本涵盖了爬虫的大致套路。本文在此基础上进一步深耕，使用Scrapy框架构建分布式爬虫系统，更加接近搜索引擎技术。

一、前期准备

1.Scrapy原理概述

2.Scrapy安装配置

3.Scrapy入门测试

4.MongDB安装配置

二、QQ音乐爬虫实战

1.网页分析

2.spyder.py编写

3.items.py编写

4.piplines.py编写

5.middlewares.py编写

6.settings.py编写

一、前期准备     1.Scrapy原理概述
    Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了爬虫或者数据采集所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。简单来说，与普通爬虫相比，Scrapy“有组织有纪律”，更容易构建大规模抓取项目。

下图即为Scrapy框架的原理架构图，下面来一一解释：

Engine：引擎，框架的核心，用于触发事务，处理整个系统的数据流处理。（Scrapy已实现）

Spiders：即爬虫主程序，定义了爬取的逻辑和网页内容的解析规则，主要负责解析响应并生成结果和新的请求（需要自己编写）

Scheduler：任务调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次请求时将请求提供给引擎。（需要自己编写）

Downloader：下载器，下载网页内容，并将下载内容返回给spider进行处理（Scrapy已实现）

ItemPipeline：项目管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和向数据库中存储数据（需要自己编写）

Downloader Middlewares：下载中间件，是处于Scrapy的Request和Requesponse之间的处理模块（Scrapy已实现）

Spider Middlewares：spider中间件，主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现（Scrapy已实现）

    有了上文对Scrapy组件的介绍，下面描述一下Scrapy运作流程：

Spider使用yeild将request发送给Engine

Engine对request不做任何处理发送给Scheduler

Engine拿到request，通过Middleware发送给Downloader

Downloader获取response之后经过Middleware发送给Engine

Engine传递给Spider，Spider的parse()方法对response进行解析

Spider将解析出来的items或者requests返回给Engine

Engine将items发送给ItemPipeline，将requests发送给Scheduler

只有当Scheduler中不存在request时程序才会停止
    2.Scrapy安装配置
接下来开始安装Scrapy，Scrapy已经支持python3，本文环境为win10+Anaconda3，实测安装没有出现问题。首先通过pip安装Scrapy：
pip install scrapy     之后进入到python命行并导入，如果没有出现报错则初步说明安装成功。 import scrapy     3.Scrapy入门测试     接着我们通过一个百度分布式爬虫框架小例子进行测试，首先在cmd中用cd命令切到任一目录，之后运行： scrapy startproject littletest 然后切换至项目目录并通过genspider命令加入爬虫网站： cd littletestscrapy genspider baidu www.baidu.com     之后进入目录查看，目录结构如下： scrapy. cfg # Scrapy 部署时的配置文件 littletest ＃项目模块 items.py # 定义爬取的数据结构 middlewares.py # 定义爬取时的中间件 pipelines.py # Pipelines 的定义，定义数据管道 settings.py ＃配置文件，放置基本设置和存储变量 spiders ＃放置Spiders 的文件夹同时我们进入settings.py将ROBOTSTXT_OBEY配置项改为False，即不遵守爬虫协议，否则很多网站无法正常获取。 ROBOTSTXT_OBEY = False 最后进入命令行启动scrapy爬虫： scrapy crawl baidu     得到结果如下，状态码为200且接收字节数大于0，则表明爬取成功！ 4.MongDB安装配置     MongoDB 是目前最流行的 NoSQL 数据库之一，使用的数据类型 BSON（类似 JSON），下载安装及配置以及链接python的pymongo数据库和最优秀的compass可视化工具安装及使用可参考作者博客：https://blog.csdn.net/qq_36936730/article/details/104906241 二、QQ音乐爬虫实战     1.网页分析     通过打开QQ音乐官网并点击歌手栏（链接传送门：https://y.qq.com/portal/singer_list.html），并打开DevTools工具，选择XHR异步并观察item，发现musicu.fcg一栏返回的json数据中有歌手相关信息。     因此我们进一步进入该项headers获取到请求url，继续点击下一页，通过三页（url如下）查找规律进一步发现sin参数发生变化，规律公式为80*(n-1)，n为页码。篇幅有限，json数据解析就不再解释，可参考前文。 https://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI9874589974344781&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0&data=%7B%22comm%22%3A%7B%22ct%22%3A24%2C%22cv%22%3A0%7D%2C%22singerList%22%3A%7B%22module%22%3A%22Music.SingerListServer%22%2C%22method%22%3A%22get_singer_list%22%2C%22param%22%3A%7B%22area%22%3A-100%2C%22sex%22%3A-100%2C%22genre%22%3A-100%2C%22index%22%3A-100%2C%22sin%22%3A0%2C%22cur_page%22%3A1%7D%7D%7Dhttps://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI8205866038561849&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0&data=%7B%22comm%22%3A%7B%22ct%22%3A24%2C%22cv%22%3A0%7D%2C%22singerList%22%3A%7B%22module%22%3A%22Music.SingerListServer%22%2C%22method%22%3A%22get_singer_list%22%2C%22param%22%3A%7B%22area%22%3A-100%2C%22sex%22%3A-100%2C%22genre%22%3A-100%2C%22index%22%3A-100%2C%22sin%22%3A80%2C%22cur_page%22%3A2%7D%7D%7Dhttps://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI8189152987042585&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0&data=%7B%22comm%22%3A%7B%22ct%22%3A24%2C%22cv%22%3A0%7D%2C%22singerList%22%3A%7B%22module%22%3A%22Music.SingerListServer%22%2C%22method%22%3A%22get_singer_list%22%2C%22param%22%3A%7B%22area%22%3A-100%2C%22sex%22%3A-100%2C%22genre%22%3A-100%2C%22index%22%3A-100%2C%22sin%22%3A160%2C%22cur_page%22%3A3%7D%7D%7D     以此类推依次获取到歌曲下载地址、歌曲列表地址、歌词列表地址、歌曲评论地址等并配置翻页参数： start_urls = ['https://u.y.qq.com/cgi-bin/musicu.fcg?data=%7B%22singerList%22%3A%7B%22module%22%3A%22Music.SingerListServer' \ '%22%2C%22method%22%3A%22get_singer_list%22%2C%22param%22%3A%7B%22area%22%3A-100%2C%22sex%22%3A-100%2C%22genr' \ 'e%22%3A-100%2C%22index%22%3A-100%2C%22sin%22%3A{num}%2C%22cur_page%22%3A{id}%7D%7D%7D'] # 歌手地址song_down = 'https://c.y.qq.com/base/fcgi-bin/fcg_music_express_mobile3.fcg?&jsonpCallback=MusicJsonCallback&ci' \ 'd=205361747&songmid={songmid}&filename=C400{songmid}.m4a&guid=9082027038' # 歌曲下载地址song_url = 'https://c.y.qq.com/v8/fcg-bin/fcg_v8_singer_track_cp.fcg?singermid={singer_mid}&order=listen&num={sum}' # 歌曲列表地址lrc_url = 'https://c.y.qq.com/lyric/fcgi-bin/fcg_query_lyric.fcg?nobase64=1&musicid={musicid}' # 歌词列表地址discuss_url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?cid=205360772&reqtype=2&biztype=1&topid=' \ '{song_id}&cmd=8&pagenum=0&pagesize=25' # 歌曲评论地址     之后我们开始建立scrapy爬虫程序。首先切换至个人目录下面开启项目： scrapy startproject musicspydercd musicspyderscrapy genspider qqmusic y.qq.com     2.spyder.py编写     接下来开始对Scrapy组件逐一完善，首先对主要爬虫程序qqmusic.py进行编写，在生成类中分别定义爬虫名、允许域名、爬取url等变量，并创建解析用户信息、歌曲信息、歌词信息、评论信息、url信息方法： import jsonimport scrapyfrom scrapy import Requestfrom musicspyder.items import QqMusicItemclass MusicSpider(scrapy.Spider): name = 'qqmusic' allowed_domains = ['y.qq.com'] start_urls = ['...'] song_down = '...' song_url = '...' lrc_url = '...' discuss_url = '...' # 生成请求并从配置中获取页数 def start_requests(self): # 解析用户信息 def parse_user(self, response) # 解析歌曲信息 def parse_song(self, response) # 解析歌词信息 def parse_lrc(self, response) # 解析评论信息 def parse_comment(self, response) # 解析url信息 def parse_url(self, response)     3.items.py编写之后对items.py进行编写，在QqMusicItem类中创建MongoDB集合名、id字段、歌手名字段、歌曲名字段、歌曲地址字段、歌词字段、评论字段等变量： import scrapyfrom scrapy import Fieldclass QqMusicItem(scrapy.Item): # mongodb collection collection = 'singer' id = Field() # 歌手名字字段 singer_name = Field() # 歌曲名字段 song_name = Field() # 歌曲地址字段 song_url = Field() # 歌词字段 lrc = Field()  # 评论字段  comment = Field()     4.piplines.py编写     再对piplines.py进行编写，新增加IrcText类对歌词进行解析处理： import jsonimport pymongoimport refrom scrapy.exceptions import DropItemfrom musicspyder.items import QqMusicItem# 默认pipline类class QqMusicPipeline(object): def process_item(self, item, spider): return item# 在pipline中新增类用于解析和清洗单词class lrcText(object): # 进行正则匹配获取的单词 def process_item(self, item, spider):# 保存到Mongo数据库class MongoPipline(object): # 构造方法  def __init__(self, mongo_url, mongo_db):  # 从settings.py中获取Mongo rl和库 @classmethod  def from_crawler(cls, crawler):  # 存储处理 def process_item(self, item, spider): # 关闭mongodb数据库  def close_spider(self, spider): 5.middlewares.py编写之后是middlewares.py代码编写，自定义my_useragent类，使用random库随机选择浏览器头： import randomfrom scrapy import signals# 默认中间件class MusicspyderSpiderMiddleware(object): @classmethod def from_crawler(cls, crawler): def process_spider_input(self, response, spider): def process_spider_output(self, response, result, spider): def process_spider_exception(self, response, exception, spider): def process_start_requests(self, start_requests, spider): def spider_opened(self, spider):# 在中间件中加入useragent防爬class my_useragent(object): def process_request(self, request, spider): user_agent_list = ['...','...',...] user_agent = random.choice(user_agent_list)    request.headers['User_Agent'] = user_agent     6.settings.py编写     最后是settings.py编写，配置相应的爬取页数、爬取歌手歌曲数量、mongoDB的地址与数据库等变量，并且设置不遵守Robots协议，开启下载中间件和itempipline： # 系统配置变量BOT_NAME = 'musicspyder'SPIDER_MODULES = ['musicspyder.spiders']NEWSPIDER_MODULE = 'musicspyder.spiders'MAX_PAGE = 3    # 爬取页数SONGER_NUM = 1      # 爬取歌手歌曲数量MONGO_URL = 'mongodb://localhost:27017/'MONGO_DB = 'music'  # mongo数据库# 定义robots协议遵守规则为：不遵守ROBOTSTXT_OBEY = False# 启用下载中间件DOWNLOADER_MIDDLEWARES = { # 'musicspyder.middlewares.QqMusicDownloaderMiddleware': 543, 'musicspyder.middlewares.my_useragent': 544,}# 启用pipline中mongodb存储ITEM_PIPELINES = { # 'musicspyder.pipelines.QqMusicPipeline': 300, 'musicspyder.pipelines.lrcText': 300, 'musicspyder.pipelines.MongoPipline': 302,} 定义上述scrapy组件完成之后我们即可在命令行中输入以下命令用以启用qqmusic爬虫框架： scrapy crawl qqmusic     之后进入mongodb查看爬取结果即可得到响应歌手歌曲信息：     至此Scrapy框架爬取QQ音乐讲解完成，Python网络爬虫数据采集实战系列也随之结束，总体来说，爬虫是一种细致活，需要掌握固定的套路并且去努力寻找网络数据规律的蛛丝马迹方能爬取成功，同时也要量力而行，防止对对方服务器造成巨大负载或者己方投入产出不成正比。     完整代码可以在公众号中回复“QQ音乐”获得，前文涉及的基础知识可参考下面链接： Python网络爬虫数据采集实战：基础知识 Python网络爬虫数据采集实战：Requests和Re库 Python网络爬虫数据采集实战：豆瓣电影top250爬取 Python网络爬虫数据采集实战：网页解析库 Python网络爬虫数据采集实战：同花顺动态网页爬取 Python网络爬虫数据采集实战：Selenium库爬取京东商品 Python网络爬虫数据采集实战：Fiddler抓包今日头条app     参考链接：     https://blog.csdn.net/qq_1290259791/article/details/82263014     https://www.jianshu.com/p/cecb29c04cd2     https://cuiqingcai.com/4380.html 学习号，涉及数据分析与挖掘、数据结构与算法、大数据组件及机器学习等内容，关注并回复“学习资料”有惊喜~ 作者：数挖小飞飞 qq音乐数据采集爬虫实战数据 scrapy MongoDB Python

1024 个赞编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号相关文章 HTML 字符集 Kamiisa 2020-04-27 703 Django 模型 Eleanor 2021-03-08 662 ASP.NET Core针对一个使用HttpClient对象的类编写单元测试详解 Ula 2020-10-06 928 详解css栅格系统在项目中的灵活运用 Ursula 2020-04-01 908 PHP析构函数destruct与垃圾回收机制的讲解 Ebony 2021-02-05 984 important的妙用解决firefox和ie的css兼容问题 Flower 2020-11-13 940 纯CSS改变webkit内核浏览器的滚动条样式 Welcome 2021-07-30 824 什么是DIV＋CSS？有哪些优势？ Olga 2020-04-18 803 Python采集二手车数据的超详细讲解 Pandora 2023-07-24 294 Python进阶之利用+和*进行列表拼接 Tani 2023-07-24 656 Python进阶之列表推导与生成器表达式详解 Tanisha 2023-07-24 1394 Python实战使用XPath采集数据示例解析 Diane 2023-07-24 1433 Android客户端与服务端数据加密传输方案详解 Diane 2023-07-28 768 Docker使用数据容器的具体示例 Nissa 2023-08-08 1163 Python 对象拷贝及深浅拷贝区别的详细教程示例 Miette 2023-08-09 488 使用Python对接OpenAi API实现智能QQ机器人的方法 Miette 2023-08-28 1874 python进阶学习实时目标跟踪示例详解 Serafina 2023-08-28 1732 Python人工智能语音合成实现案例详解 Rhea 2023-08-28 744 python Tkinter实例详解 Malinda 2023-08-28 1999 Python人工智能构建简单聊天机器人示例详解 Kathy 2023-08-28 1370

我要提问致谢帮助他人，成就自己。人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。 1024问感谢每一位朋友的帮助和支持。软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座