爬虫之scrapy数据库存储

        在记录数据库存储数据之前,先记录一下items.py的作用,itmes.py是scrapy提供的一种数据封装的工具,与字典类似,都是有键和值构成,其中key需要再itmes.py中提前定义。

class NewItem(scrapy.Item):
    # define the fields for your item here like:
    #name = scrapy.Field()
    id = scrapy.Field()
    name = scrapy.Field()
    category = scrapy.Field()
    geme_times = scrapy.Field()

scrapy此举主要是为了避免传递字典时出现key值错误(我瞎想的)。items中key的定义scrapy有模板,直接照着写就行。 在使用时需要先实例化

#实例化
 new_key = NewItem()
# 传入值           
new_key["id"] = id
new_key["name"] = name
new_key["category"] =  category
new_key["geme_times"] = game_time
yield new_key

在spider中使用时需要导入items,这里有个坑,有很多人会遇到导进入了但是还是报错,这是pycharm导包的问题,这样写就没问题了。

from ..items import NewItem

接下来就该进入正题了

1.存储导excel中

        都知道存储实在管道中进行的,管道可以有多个,在数据处理管道完成后会将数据传给数据存储管道,在存储管道中需要再open_spider中写打开文件的代码,在close_spider中写关闭文件的代码,open_spider是爬虫开始前执行的方法,close_spider是爬虫关闭后执行的方法

代码如下

class NewPipeline:
    def process_item(self, item, spider):
        print(str(item['id'])+item['name']+item['category']+item['game_times'])
        return item
#先新建一个管道
class data_csv_Pipeline:
#在爬虫开始前打开文件
    def open_spider(self, spider):
        self.f = open('data.csv', 'w',encoding='utf-8')
        print('我要开始写了')
#在爬虫结束后关闭文件
    def close_spider(self, spider):
        self.f.close()
        print('我写完了')
#写入文件
    def process_item(self, item, spider):
        self.f.write(str(item['id'])+item['name']+item['category']+item['game_times']+'\n')

        return item

最后别忘了在setting中把刚刚新建的管道打开

ITEM_PIPELINES = {
   "new.pipelines.NewPipeline": 300,
   "new.pipelines.data_csv_Pipeline": 301,
}

2.保存到数据库中

其实流程和上面是差不多的,在open_spider中写连接数据库的代码,在close_spider中写关闭数据库连接的代码

代码如下

#新建一个管道
class data_mysql_Pipeline:
#爬虫开始前打开数据库连接
    def open_spider(self, spider):
        self.con = pymysql.connect(host='localhost',
                              user='root',
                              password='root',
                              db='day01',
                              port=3306)
#爬虫结束后关闭连接
    def close_spider(self, spider):
        if self.con:
            self.con.close()
#把数据存储到数据库
    def process_item(self, item, spider):
        try:
            # 创建游标
            cur = self.con.cursor()
            sql = "insert into game (id, name, category,time) values (%s,%s,%s,%s)"
            #print(type(item['id']))
            cur.execute(sql, (item['id'], item['name'], item['category'],item['game_times']))

            self.con.commit()
        except:
            print("出错了")
            self.con.rollback()
        finally:
            if cur:
                cur.close()
        return item

同样的需要在setting中要打开管道

3.优化存储

在存储到数据库时,把数据库的信息写在open_spider中肯定是没问题的,但是还是写在setting中最好,方便修改。修改如下:

#在setting中
MYSQL ={
      'host':'localhost',
      'user':'root',
      'password':'root',
      'db':'day01',
      'port': 3306
}

 

from settings import MYSQL
class data_mysql_Pipeline:
    def open_spider(self, spider):
        self.con = pymysql.connect(host=MYSQL['host'],
                              user=MYSQL['user'],
                              password=MYSQL['password'],
                              db=MYSQL['db'],
                              port=MYSQL['port'])
    def close_spider(self, spider):
        if self.con:
            self.con.close()
    def process_item(self, item, spider):
        try:
            cur = self.con.cursor()
            sql = "insert into game (id, name, category,time) values (%s,%s,%s,%s)"
            #print(type(item['id']))
            cur.execute(sql, (item['id'], item['name'], item['category'],item['game_times']))

            self.con.commit()
        except:
            print("出错了")
            self.con.rollback()
        finally:
            if cur:
                cur.close()
        return item

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python Scrapy是一种优秀的开源网络爬虫框架,可以用于从网页中爬取数据。借助其强大的功能,我们可以轻松地将爬取到的数据写入数据库。 首先,我们需要创建一个Scrapy项目并配置好爬虫。在项目中,我们可以定义Item类来表示我们需要提取的数据字段。通过编写爬虫规则,我们可以指定要爬取的网页、需要提取的数据字段以及数据的处理方式。 在编写完爬虫规则后,Scrapy会自动将爬取到的数据封装成Item对象。我们可以在爬虫的回调函数中对这些Item对象进行处理,例如将数据写入数据库。 为了将数据写入数据库,我们可以使用Python的数据库操作库,如MySQLdb或者pymysql。首先,我们需要连接到数据库,并创建一个数据库连接对象。然后,我们可以将爬取到的数据逐条插入到数据库中。 插入数据的具体步骤如下: 1. 导入数据库操作库 2. 连接到数据库 3. 创建游标对象 4. 遍历爬取到的数据 5. 构造插入语句 6. 执行插入操作 7. 提交事务 8. 关闭游标和数据库连接 通过以上步骤,我们可以将爬取到的数据成功写入数据库。 值得注意的是,在爬取大量数据时,为了提高性能和效率,我们可以使用异步IO库,如aiomysql或aiopg,来实现异步插入操作。 总而言之,Python Scrapy可以轻松实现数据的网页爬取,并通过数据库操作库将数据写入数据库。这样,我们可以方便地对爬取到的数据进行存储和管理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值