基于scapy框架的爬虫项目作业

Aaaa灵气

于 2022-11-20 16:50:41 发布

阅读量124

点赞数

分类专栏：作业文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51865207/article/details/127950821

版权

作业专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在pycharm中安装scrapy框架
直接import scrapy 然后安装即可

测试是否安装成功，不报错则代表安装成功

2.打开pycharm，在终端输入scrapy startproject XXX(name)创建工程

3.cd进入子目录，在spider子目录下创建一个爬虫文件

scrapy genspider spidername www.xxx.com

框架结构如下图所示，点击进入qiubai.py文件中进行代码编写

4.自动生成一个类，修改url，改成要爬取的网站

http://jandan.net/treehole/MjAyMjExMTctNTg=#comments

对网站进行解析，这里使用xpath方法进行数据解析，使用xpath解析的源码如下

5.进行持久化存储需要对spiders目录下的items.py子文件进行修改，如下图：

6.使用数据库进行持久化存储导入pymsql模块，并对数据库连接进行测试代码如下

7.在spiders目录下的pipeline.py子文件进行修改，自己建立一个类mysqlPipeLine定义三个函数，作用分别问开启，进程（含有sql语句）和关闭，代码如下图：

8.在spider目录下的settings.py子文件中进行开启管道，打开UA代理，关闭君子协定，不显示日志信息一系列操作

9.在终端打开数据库，在sunyitao数据库中创建表格qiubai，代码如下：

create table qiubai(author char(255),content char(255));

10.在pycharm终端开启工程，输入scrapy crawl qiubai工程程创建完成，在mysql里边查看表格表格信息插入成功，持久化存储完成

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于scapy框架的爬虫项目作业

作业
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。