基于scapy框架的爬虫项目作业

  1. 在pycharm中安装scrapy框架 
  2.  直接import scrapy 然后安装即可

测试是否安装成功,不报错则代表安装成功

2.打开pycharm,在终端输入scrapy startproject XXX(name)创建工程

3.cd进入子目录,在spider子目录下创建一个爬虫文件

scrapy genspider spidername www.xxx.com

框架结构如下图所示,点击进入qiubai.py文件中进行代码编写

4.自动生成一个类,修改url,改成要爬取的网站

http://jandan.net/treehole/MjAyMjExMTctNTg=#comments

对网站进行解析,这里使用xpath方法进行数据解析,使用xpath解析的源码如下

5.进行持久化存储需要对spiders目录下的items.py子文件进行修改,如下图:

6.使用数据库进行持久化存储导入pymsql模块,并对数据库连接进行测试代码如下

7.在spiders目录下的pipeline.py子文件进行修改,自己建立一个类mysqlPipeLine定义三个函数,作用分别问开启,进程(含有sql语句)和关闭,代码如下图:

8.在spider目录下的settings.py子文件中进行开启管道,打开UA代理,关闭君子协定,不显示日志信息一系列操作

 

 

9.在终端打开数据库,在sunyitao数据库中创建表格qiubai  代码如下:

create table qiubai(author char(255),content char(255));

10.在pycharm终端开启工程,输入scrapy crawl  qiubai工程程创建完成,在mysql里边查看表格表格信息插入成功,持久化存储完成

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值