使用python爬取虎牙主播直播封面图片（scrapy）

Elana ·

更新时间:2024-11-14

· 503 次阅读

目的：使用Scrapy框架爬取虎牙主播直播封面图片

Scrapy（通过pip 安装Scrapy框架pip install Scrapy）和Python3.x安装教程可自行寻找教程安装，这里默认在Windows环境下已经配置成功。

1.新建项目（scrapy startproject）

在开始爬取之前，必须创建一个新的Scrapy项目。Win+R打开cmd命令窗口，运行下列命令：

cd desktop
scrapy startproject huya

此时，已在桌面建立huya工程项目文件夹，文件夹中文件解释如下：
scrapy.cfg ：项目的配置文件
huya/ ：项目的Python模块，将会从这里引用代码
huya/items.py ：项目的目标文件
huya/pipelines.py ：项目的管道文件
huya/settings.py ：项目的设置文件
huya/spiders/ ：存储爬虫代码目录
接着，进入huya/spiders/目录，cmd输入命令如下：

cd huya
cd huya
cd spiders

在当前目录下输入命令，将在huya/spiders/目录下创建文件huyaspider.py，并指定爬取域范围：huya.com

scrapy genspider huyaspider "huya.com"

2. 代码部分 1）items.py

打开huya/huya/目录下文件items.py，代码如下：

# -*- coding: utf-8 -*-
import scrapy
class HuyaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 房间主题
    nickname = scrapy.Field()
    # 链接
    imagelink = scrapy.Field()
    # 存储路径
    imagePath = scrapy.Field()

2）huyaspider.py

打开huya/huya/spiders/目录下文件huyaspider.py，修改代码如下：

# -*- coding: utf-8 -*-
import scrapy
from huya.items import HuyaItem
class HuyaspiderSpider(scrapy.Spider):
    name = 'huyaspider'
    allowed_domains = ['huya.com']
    start_urls = ['https://www.huya.com/g/2168']
    def parse(self, response):
        # 通过scrapy自带的xpath匹配出所有根节点列表集合
        image_list = response.xpath('//div[@class="box-bd"]/ul/li')
        for img_each in image_list:
            huyaItem=HuyaItem()
            huyaItem["nickname"] = img_each.xpath("./a/img[@class='pic']/@title").extract()[0]
            huyaItem["imagelink"] = img_each.xpath("./a/img[@class='pic']/@data-original").extract()[0]
            yield huyaItem

3）pipelines.py

打开huya/huya/目录下文件pipelines.py，修改代码如下：

# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import scrapy
from scrapy.utils.project import get_project_settings
from scrapy.pipelines.images import ImagesPipeline
import os
class HuyaPipeline(ImagesPipeline):
    # def process_item(self, item, spider):
    #     return item
    # 获取settings文件里设置的变量值
    IMAGES_STORE = get_project_settings().get("IMAGES_STORE")
    headers = get_project_settings().get("DEFAULT_REQUEST_HEADERS")
    def get_media_requests(self, item, info):
        image_url = item["imagelink"]
        # headers是请求头主要是防反爬虫
        yield scrapy.Request(image_url, headers=self.headers)
    def item_completed(self, result, item, info):
        image_path = [x["path"] for ok, x in result if ok]
        # # 目录不存在则创建目录
        if os.path.exists(self.IMAGES_STORE) == False:
            os.mkdir(self.image_path)
        os.rename(self.IMAGES_STORE + "/" + image_path[0], self.IMAGES_STORE + "/" + item["nickname"] + ".jpg")
        item["imagePath"] = self.IMAGES_STORE + "/" + item["nickname"]
        return item

3）setting.py

打开huya/huya/目录下文件setting.py，添加代码如下：

IMAGES_STORE = "C:/Users/**用户名**/Desktop/huya/Images"

打开huya/huya/目录下文件setting.py，修改代码如下：

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
   'User-Agent' : 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   #'Accept-Language': 'en',
}
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'huya.pipelines.HuyaPipeline': 300,
}

3.爬取数据

cmd命令窗口：

scrapy crawl huyaspider

pycharm启动，在huya/目录下建立start_huya.py文件，添加代码如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl huyaspider".split())

在这里插入图片描述

4.结果

虎牙爬取主播图片

作者：firstlt0217

主播用python 直播图片 scrapy Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

ASP.NET Core针对一个使用HttpClient对象的类编写单元测试详解

Ula 2020-10-06

928

VS2013安装时如何避开IE10的限制

Yvonne 2020-12-07

527

原生PHP实现导出csv格式Excel文件的方法示例【附源码下载】

Kita 2021-01-20

579

JavaScript字符串处理常见操作方法小结

Alysa 2021-06-22

678

vue - vue.config.js中devServer配置方式

Freya 2020-12-14

587

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座