一文搞懂Scrapy与MongoDB交互过程

Kirima ·

更新时间:2024-11-13

· 1341 次阅读

Pipeline.py

class MongoDBPipeline:
    def __init__(self,conn,database):
        self.conn = conn
        self.database = database
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            conn=crawler.settings.get('MONGODB_CONNECTION_STRING'),
            database=crawler.settings.get('MONGODB_DATABASE')
        )
    def open_spider(self,spider):
        # 创建连接对象
        self.client = pymongo.MongoClient(self.conn)
        # 连接要用的使用的数据库
        self.db = self.client[self.database]
    def process_item(self,item,spider):
        # 设置使用表名称
        name = item.__class__.__name__
        # 默认item类名
        self.db[name].insert_one(dict(item))
        return item
    def close_spider(self,spider):
        self.client.close()

PS:

1.不能用insert来插入数据，PyMongo 4.0.* 中 Collection.insert 方法被移除，使用 Collection.insert_one 或者 Collection.insert_many 替代：

db[name].insert_one({'my': 'document'})
db[name].insert_many([{'doc': 2}, {'doc': 3}])

2.process_item一定要写return item，不然接收不了返回值。

3.open_spider, process_item, close_spider的名称和参数不能改变，因为这是重写类方法。

setting.py

MONGODB_CONNECTION_STRING = '127.0.0.1'
MONGODB_DATABASE = 'test'

补充知识点：类方法@classmethod

类方法也算一种实用的技巧，简单描述之：“类方法让类模板具有记忆力”。

类模板就是我们所定义的类。在普通情况下，不使用类方法对类进行实例化，类本身是不具有记忆性的。只是当一个静态模板被套用多次而已。如果我们想让类在每一次实例化之后，都能记载一些记忆，是否会对很多操作很有用？

举个例子：

class Man:
    id = 0 # 类变量
    def __init__(self, name):
        self.name = name
        self.id = self.id_number()
    @classmethod
    def id_number(cls):
        cls.id += 1
        return cls.id
a = Man('A')
print(a.id)
b = Man('B')
print(b.id)

上面的输出为:

1
2

我对Man这个类进行实例化2次，每个实例的id都不一样。这就依靠类方法来实现了：首先，用@classmethod描述类方法，然后用"cls"代表本类。类方法对类属性进行的处理是有记忆性的。

PS：类方法处理的变量一定要是类变量。因为在类方法里你用不了self来寻址实例变量，所以需要把类变量放到最前面描述，如上面的"id=0"所示。类变量是可以被self访问的，所以，在类变量定义好了以后，不需要在_init_函数里对类变量再一次描述。所以，上面代码里self.id不一定需要。

到此这篇关于Scrapy与MongoDB交互的文章就介绍到这了,更多相关Scrapy与MongoDB内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

Django 模型

Eleanor 2021-03-08

662

ASP.NET Core针对一个使用HttpClient对象的类编写单元测试详解

Ula 2020-10-06

928

关于MongoDB数据库学习路线指南

Kande 2023-05-13

295

关于MongoDB数据库核心概念

Karli 2023-05-13

1610

使用Python和Scrapy实现抓取网站数据

Elaine 2023-05-13

1044

mongodb中根据时间过滤进行查询的操作方法

Cybill 2023-05-13

856

Scrapy爬虫Response子类在应用中的问题解析

Yvonne 2023-05-17

1124

MongoDB数据库设置账号密码完整步骤

Madeleine 2023-05-17

782

利用Python操作MongoDB数据库的详细指南

Tanisha 2023-07-09

266

关于mongoDB的聚合操作_aggregate()归纳详解

Vera 2023-07-20

1142

浅谈MongoDB内部的存储原理

Sabah 2023-07-20

51

MongoDB操作之日期转换方式(string、ISODate、时间戳)

Lark 2023-07-20

45

Linux安装MongoDB 4.0.3详细步骤

Diane 2023-07-20

367

Linux系统下安装MongoDB的详细方法图文教程

Jelena 2023-07-20

682

MongoDB的安装方法图文详细

Tina 2023-07-20

146

MongoDB对数组进行增删改查操作

Tia 2023-07-20

1386

MongoDB分组查询和聚合查询实例教程

Iris 2023-07-20

818

MongoDB数据库类replace替换字符串指定内容

Lark 2023-07-20

544

MongoDB数据库查看慢查询级别以及慢查询日志

Serepta 2023-07-20

1453

解决MongoDB6.0报错:mongo不是内部或外部命令,也不是可运行的程序或批处理文件

Isoke 2023-07-20

809

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座