Scrapy爬虫项目——阿里文学当当网

Abbie ·

更新时间:2024-11-13

· 810 次阅读

1. Cmd命令行创建项目

创建项目命令：

scrapy startproject [项目名]

Items定义要爬取的东西；spiders文件夹下可以放多个爬虫文件；pipelines爬虫后处理的文件，例如爬取的信息要写入数据库；settings项目设置

2. Scrapy常用模板

Scrapy-般通过指令管理爬虫项目，常用的指令有:

（1） startproject创建爬虫项目

basic基础模板（最常用）；crawl通用爬虫模板；csvfeed爬取csv格式的模板；xmlfeed爬取xml格式的模板

（2） genspider -I查看爬虫模板

（3）genspider -t模版爬虫文件名域名创建爬虫

（4）crawl运行爬虫

（5）list查看有哪些爬虫

3. Scrapy爬虫编写基础

编写一个Scrapy爬虫项目，一般按照如下流程进行:

（1）创建爬虫项目

（2）编写items

（3）创建爬虫文件

（4）编写爬虫文件

（5）编写pipelines

（6）配置settings

4. 使用scrapy编写阿里文学数据 第一步：定义目标

在items中定义目标

第二步：完善爬虫文件的编写

yield这里转交给pipelines文件处理

纠正一下：图中第①点我的目录应该是ali_first

（运行之后报错才发现，这个笔记是边做项目边写的，懒得重新截图编辑了）

第三步：开启pipelines

修改settings文件

第四步：完善pipelines文件内容

5. 使用scrapy编写当当网商品数据

目标站点:当当(http://category.dangdang.com/pg1-cp01.54.06.00.00.00.html)

需求数据:商品标题、链接评论数等数据

要求:自动翻页并自动写入数据库

对比翻页链接：

http://category.dangdang.com/pg1-cp01.54.06.00.00.00.html

http://category.dangdang.com/pg2-cp01.54.06.00.00.00.html

第一步：items文件定义目标

第二步：完善爬虫文件


# -*- coding: utf-8 -*-
import scrapy
from dangdang_sed.items import DangdangSedItem
from scrapy.http import Request
class FirstSpider(scrapy.Spider):
    name = 'first'
    allowed_domains = ['category.dangdang.com']
    start_urls = ['http://category.dangdang.com/pg1-cp01.54.06.00.00.00.html/']
    def parse(self, response):
        item = DangdangSedItem()            # 创建对象
        # 获取数据
        item["title"] = response.xpath('//a[@name="itemlist-title"]/@title').extract()
        item["href"] = response.xpath('//a[@name="itemlist-title"]/@href').extract()
        item["comment"] = response.xpath('//a[@name="itemlist-review"]/text()').extract()
        # print('书名：\n'+str(item["title"]))
        # print(item["title"])
        yield item
        # 翻页
        for i in range(0,10):
            url = "http://category.dangdang.com/pg"+str(i+2)+"-cp01.54.06.00.00.00.html"
            yield Request(url,callback = self.parse)

	第三步：开启pipelines
修改settings文件

ITEM_PIPELINES = {
   'dangdang_sed.pipelines.DangdangSedPipeline': 300,
}

	第四步：下载pymysql
使用命令：pip install pymysql
异常：

根据提示输入命令更新pip安装包：
python -m pip install --upgrade pip
再次出现异常，更新失败：

通过百度看到更新方法：
python -m pip install --upgrade pip -i https://pypi.douban.com/simple

再次下载安装pymysql库

修改pymysql设置
（1）找到pymysql路径下的connections.pyi文件

（2）修改connections.pyi文件中的charset值，避免出现乱码问题

	第五步：准备数据库
这里用vavicat for mysql工具创建数据库和数据表
数据库：dangdang 数据表：boods

在mysql命令窗口中通过密码登录，查看数据库可以看到刚才创建的数据库dangdang

	第六步：完善pipelines文件内容

	第七步：运行爬虫文件并查看数据库存储结果
运行first.py文件，同时查看数据库中是否有数据插入

通过vavicat for mysql工具查看dangdang数据库的boods表格数据



作者：Python新手上路
                    
 
                

                            scrapy
                            文学
                            阿里


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            Scala 循环
        
        
            Daisy
            2020-05-31
        
    
    
        604
    


    
        
            html5 Canvas画图教程(11)—使用lineTo/arc/bezierCurveTo画椭圆形
        
        
            Maren
            2021-05-06
        
    
    
        537
    


    
        
            ASP.NET Core针对一个使用HttpClient对象的类编写单元测试详解
        
        
            Ula
            2020-10-06
        
    
    
        928
    


    
        
            docker配置阿里云镜像仓库的实现
        
        
            Tertia
            2022-11-05
        
    
    
        1254
    


    
        
    
    
        
            一文学会使用OpenCV构建文档扫描仪
        
        
            Glenna
            2022-11-05
        
    
    
        209
    


    
        
            微信小程序引入外部icon(阿里巴巴矢量图标)的全过程
        
        
            Adonia
            2022-11-06
        
    
    
        695
    


    
        
            一文学会如何升级npm管理的各依赖版本
        
        
            Linda
            2022-11-06
        
    
    
        151
    


    
        
            一文搞懂阿里云服务器部署Redis并整合Spring Boot
        
        
            Hazel
            2022-11-07
        
    
    
        229
    


    
        
    
    
        
            一文学会如何将Python打包后的exe还原成.py
        
        
            Ula
            2022-11-19
        
    
    
        480
    


    
        
            阿里云服务器 jdk1.8 安装配置教程
        
        
            Jacinthe
            2022-12-13
        
    
    
        1944
    


    
        
    
    
        
            码云(gitee)通过git自动同步到阿里云服务器
        
        
            Miette
            2022-12-15
        
    
    
        195
    


    
        
            阿里前端开发中的规范要求
        
        
            Rhea
            2022-12-29
        
    
    
        1760
    


    
        
            Python中Scrapy框架的入门教程分享
        
        
            Fawn
            2023-03-11
        
    
    
        1796
    


    
        
    
    
        
            阿里云ssl证书如何通过Nginx部署到服务器
        
        
            Roselani
            2023-03-31
        
    
    
        536
    


    
        
            阿里云安装docker全过程
        
        
            Tanya
            2023-04-06
        
    
    
        725
    


    
        
    
    
        
            阿里云SSL证书到期导入新证书的步骤
        
        
            Karli
            2023-04-20
        
    
    
        1486
    


    
        
    
    
        
            宝塔apache配置阿里云SSL免费证书的步骤(图文)
        
        
            Maleah
            2023-04-20
        
    
    
        1091
    


    
        
            使用Python和Scrapy实现抓取网站数据
        
        
            Elaine
            2023-05-13
        
    
    
        1044
    


    
        
    
    
        
            Scrapy爬虫Response子类在应用中的问题解析
        
        
            Yvonne
            2023-05-17
        
    
    
        1124
    


    
        
    
    
        
            如何将maven源改为国内阿里云镜像
        
        
            Miette
            2023-07-18
        
    
    
        635


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座