Python爬虫数据写入操作

本文介绍了Python Scrapy爬虫数据的保存方法,包括同步和异步写入数据库,以及保存到CSV和JSON文件。详细讲解了如何在pipelines.py中实现数据库操作,并提供了错误处理和文件关闭的方法。
摘要由CSDN通过智能技术生成
Python Scrapy爬虫数据写入操作

在我们写完一个爬虫项目,得到了一大堆的数据,为了以后的分析和使用,我们需要把我们得到的数据进行保存。保存数据的方式主要有:保存到数据库,保存到CSV文件,保存为JSON文件。
保存到数据库中分为同步和异步的方式:

一般小的数据,我们可以选择,同步保存数据库:

首先先准备好数据库文件和数据表

操作在pipelines.py文件中完成
将item写入数据库
import MySQLdb
class MysqlPipeine(object):

    def __init__(self):
        self.conn = MySQLdb.connect(
                    host = 'localhost',
                    # mysql默认端口号3306
                    port = 3306,
                    user = 'root',
                    passwd = '123456',
                    db = 'db_name',
                    use_unicode = True,
                    charset = 'utf8'
        )
        self.cursor = self.conn.cursor()
    
    
    # 处理item的函数
    def process_item(self, item, spider):
    
    # 准备sql语句
        sql = 'insert into table_name(字段名)VALUES (字段数据,即item对象)'
        self.cursor.execute(sql)
        self.conn.commit()
    
    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

如果数据量较大,异步写入数据库会更高效:
同样操作在我们的pipelines文件中,但在操作之前,需要配置我们的setting文件,在其中添加我们的数据
# 自己配置一些项目信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值