scrapy爬虫项目的准备工作

最新推荐文章于 2021-01-04 22:31:27 发布

cool line

最新推荐文章于 2021-01-04 22:31:27 发布

阅读量173

点赞数

分类专栏： python 文章标签： python scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44423698/article/details/100126916

版权

python 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

基于scrapy框架的爬虫项目的准备工作

下载MySQL数据库

---->在MySQL中建对应的数据库，数据表，数据名

下载scrapy库

---->进入cmd虚拟环境：

–>cd F:\py\zhongruan\day17_scrapy #到达建scrapy项目的地址（一定要有地址，否则会报错）

–>scrapy startproject spiderproject #前两个是创建的语句，最后是项目名称（自定义）

–>cd spiderproject #进入项目

–>scrapy genspider jobspider www.baidu.com #后两个是爬虫主程序和要爬的网址

然后关闭cmd，开始在pycharm中敲代码
（记得在MySQL中建对应数据库，数据表，爬取的数据名）

scrapy crawl jobspider (打开爬虫文件名) #执行命令
#也可以不这样执行，用start脚本文件打开（需要配置对应文件）

选择要爬取的网站时注意下面情况与解决方法：
–>地址加密（如：B站等），换个网站爬吧，小白惹不起
–>文字加密（如：58同城，某知名小说网站等），换个网站爬吧，小白惹不起，大佬自动忽略
–>登陆（如：steam等），模拟登陆
–>验证码（如：豆瓣等），模拟人的行为（简单的算法：加速度）
–>异步数据，异步处理
–>重定向页面（如：房天下等房屋数据的网站），有解决方法，对小白不是很友好
–>地址不全的（爬取不会自动补全，页面才可以），可以拼接
–>re（正则）可以筛选xpath格式不规范的数据
–>基本的数据库sql语句
–>（可以爬一些不太出名并且不是很久远而且排版很好的网站）51job，hao123影视，2345电影网之类的

以上，是进行scrapy爬虫项目之前的准备工作！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。