初级爬虫python3+scrapyd+mysql+redis实现爬虫和数据存储

准备:

一、环境配置:

1.Mac系统:

(1)python3下载安装 系统默认为python2.0

(2)mysql下载安装

(3)scrapyd爬虫框架配置

(4)redis 去重用的

2.工具:python charm 编辑器 、Navicate、redis工具

安装插件pymysql 执行命令 pip3 install pymysql

3.需要掌握的基本技能:

   (1)python3基本语法

   (2)数据库基本语法

   (3)redis 基本存储

   (4)js基本语法

   (5)正则

   (6)xpath语法

二、执行命令

创建项目: scrapy startproject 你的文件夹名例:FirstPythonProject之后生成框架

框架目录结构为spiders、items.py、middlewares.py、pipelines.py、settings.py

scrapy genspider qutotes baidu.com //生成一个名为quotes.py的文件,爬取地址为baidu.com

1.spiders为爬虫文件夹,主要写代码就是在该文件夹下的.py文件里

2.items.py 爬虫model

3.middlewares.py 中间件,配置一些执行IP等信息

4.pipelines.py mysql和redis的数据存储写在这里

5.settings.py 一些配置信息,数据哭的优先级,端口IP地址等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值