准备:
一、环境配置:
1.Mac系统:
(1)python3下载安装 系统默认为python2.0
(2)mysql下载安装
(3)scrapyd爬虫框架配置
(4)redis 去重用的
2.工具:python charm 编辑器 、Navicate、redis工具
安装插件pymysql 执行命令 pip3 install pymysql
3.需要掌握的基本技能:
(1)python3基本语法
(2)数据库基本语法
(3)redis 基本存储
(4)js基本语法
(5)正则
(6)xpath语法
二、执行命令
创建项目: scrapy startproject 你的文件夹名例:FirstPythonProject之后生成框架
框架目录结构为spiders、items.py、middlewares.py、pipelines.py、settings.py
scrapy genspider qutotes baidu.com //生成一个名为quotes.py的文件,爬取地址为baidu.com
1.spiders为爬虫文件夹,主要写代码就是在该文件夹下的.py文件里
2.items.py 爬虫model
3.middlewares.py 中间件,配置一些执行IP等信息
4.pipelines.py mysql和redis的数据存储写在这里
5.settings.py 一些配置信息,数据哭的优先级,端口IP地址等