scrapy完成爬取内容的入库操作(mongodb数据库)。
一、安装mongodb数据库并完成一次连接(已安装的可跳过)
1、下载mongodb安装包(.msi)
(1)MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB 预编译二进制包下载地址:下载链接
(2)百度网盘下载mongodb-win32-x86_64-2008plus-ssl-3.0.3-signed(64位可用)网盘链接 提取码:v02z
2、安装mongodb
傻瓜式安装,点开.msi文件,一步步来就ok了。
3、配置mongodb环境
(1)win+q,输入cmd并以管理员身份打开
(2)在你安装数据库所在盘的根目录下创建数据库目录(默认下为c盘)
cd/
mkdir c:\ data
cd data
mkdir c:\ data\db
(3)运行并连接mongodb数据库
cd c:\mongodb\bin #安装目录下的bin文件位置
mongod
若为此则说明启动成功
然后再打开一个dos命令界面
cd c:\mongodb\bin #安装目录下的bin文件位置
mongo
若输出此行则为成功连接
PS:若嫌每次都进入安装目录下的bin目录麻烦,可设置环境变量PATH的值(教程自找,一大堆)
二、将scrapy中的文件存入mongodb数据库
1、修改爬虫文件中的pipeline文件
修改为如下片段
import pymongo
class XXXPipeline(object): #XXX为你的爬虫项目名称
def __init__(self):
host = '127.0.0.1' # MongoDB地址
port = 27017 # 端口号
client = pymongo.MongoClient(host=host, port=port)
tdb = client["dbNAME"] # 数据库名
self.post = tdb["table"] # 表名
def process_item(self, item, spider):
self.post.insert(item) (这是插入字典的方式,别的可以去pymongo教程下查
也可以仅在pipeline中设置client和插入,然后再setting中设置host,port和name再引入
2、运行完爬虫之后查询存入的信息
方式一:
在cmd窗口,进入到MongoDB安装盘的mongodb\bin文件目录下,输入mongo命令进行查询(不推荐)
show dbs
use dbname(数据库名称)
show collections
db.tablename(表名).find()
方式二:使用mongodb可视化图形管理工具,我用的时MongoVUE
百度网盘链接:https://pan.baidu.com/s/1ov0ITncSBqqYP_63ekDuuw
提取码:05rj
连接后去collections下找就可以了