- 在pycharm中安装scrapy框架
- 直接import scrapy 然后安装即可
测试是否安装成功,不报错则代表安装成功
2.打开pycharm,在终端输入scrapy startproject XXX(name)创建工程
3.cd进入子目录,在spider子目录下创建一个爬虫文件
scrapy genspider spidername www.xxx.com
框架结构如下图所示,点击进入qiubai.py文件中进行代码编写
4.自动生成一个类,修改url,改成要爬取的网站
http://jandan.net/treehole/MjAyMjExMTctNTg=#comments
对网站进行解析,这里使用xpath方法进行数据解析,使用xpath解析的源码如下
5.进行持久化存储需要对spiders目录下的items.py子文件进行修改,如下图:
6.使用数据库进行持久化存储导入pymsql模块,并对数据库连接进行测试代码如下
7.在spiders目录下的pipeline.py子文件进行修改,自己建立一个类mysqlPipeLine定义三个函数,作用分别问开启,进程(含有sql语句)和关闭,代码如下图:
8.在spider目录下的settings.py子文件中进行开启管道,打开UA代理,关闭君子协定,不显示日志信息一系列操作
9.在终端打开数据库,在sunyitao数据库中创建表格qiubai, 代码如下:
create table qiubai(author char(255),content char(255));
10.在pycharm终端开启工程,输入scrapy crawl qiubai工程程创建完成,在mysql里边查看表格表格信息插入成功,持久化存储完成