scrapy完成爬取内容的入库操作(mongodb数据库)。(windows下)

scrapy完成爬取内容的入库操作(mongodb数据库)。

一、安装mongodb数据库并完成一次连接(已安装的可跳过)

1、下载mongodb安装包(.msi)

(1)MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB 预编译二进制包下载地址:下载链接
(2)百度网盘下载mongodb-win32-x86_64-2008plus-ssl-3.0.3-signed(64位可用)网盘链接 提取码:v02z

2、安装mongodb

傻瓜式安装,点开.msi文件,一步步来就ok了。

3、配置mongodb环境

(1)win+q,输入cmd并以管理员身份打开

(2)在你安装数据库所在盘的根目录下创建数据库目录(默认下为c盘)

cd/
mkdir c:\ data
cd data
mkdir c:\ data\db

(3)运行并连接mongodb数据库

cd c:\mongodb\bin		#安装目录下的bin文件位置
mongod

若为此则说明启动成功](https://img-blog.csdnimg.cn/20200214141332154.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTkzODEwMA==,size_16,color_FFFFFF,t_70)
然后再打开一个dos命令界面

cd c:\mongodb\bin		#安装目录下的bin文件位置
mongo

若输出此行则为成功连接
输出此行为成功连接

PS:若嫌每次都进入安装目录下的bin目录麻烦,可设置环境变量PATH的值(教程自找,一大堆)

二、将scrapy中的文件存入mongodb数据库

1、修改爬虫文件中的pipeline文件

修改为如下片段

import pymongo

class XXXPipeline(object):			#XXX为你的爬虫项目名称
    def __init__(self):
        host = '127.0.0.1' # MongoDB地址
        port = 27017     # 端口号
        client = pymongo.MongoClient(host=host, port=port)
        tdb = client["dbNAME"]    # 数据库名
        self.post = tdb["table"] # 表名

	def process_item(self, item, spider):
	self.post.insert(item)     (这是插入字典的方式,别的可以去pymongo教程下查

也可以仅在pipeline中设置client和插入,然后再setting中设置host,port和name再引入

2、运行完爬虫之后查询存入的信息

方式一:
在cmd窗口,进入到MongoDB安装盘的mongodb\bin文件目录下,输入mongo命令进行查询(不推荐)

show dbs
use dbname(数据库名称)
show collections
db.tablename(表名).find()

在这里插入图片描述
方式二:使用mongodb可视化图形管理工具,我用的时MongoVUE
百度网盘链接:https://pan.baidu.com/s/1ov0ITncSBqqYP_63ekDuuw
提取码:05rj

在这里插入图片描述
连接后去collections下找就可以了
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值