scrapy爬虫项目的准备工作

基于scrapy框架的爬虫项目的准备工作

下载MySQL数据库

---->在MySQL中建对应的数据库,数据表,数据名

下载scrapy库

---->进入cmd虚拟环境:

–>cd F:\py\zhongruan\day17_scrapy #到达建scrapy项目的地址(一定要有地址,否则会报错)

–>scrapy startproject spiderproject #前两个是创建的语句 ,最后是项目名称(自定义)

–>cd spiderproject #进入项目

–>scrapy genspider jobspider www.baidu.com #后两个是爬虫主程序和要爬的网址

然后关闭cmd,开始在pycharm中敲代码
(记得在MySQL中建对应数据库,数据表,爬取的数据名)

scrapy crawl jobspider (打开爬虫文件名) #执行命令
#也可以不这样执行,用start脚本文件打开(需要配置对应文件)

选择要爬取的网站时注意下面情况与解决方法:
–>地址加密(如:B站等),换个网站爬吧,小白惹不起
–>文字加密(如:58同城,某知名小说网站等),换个网站爬吧,小白惹不起,大佬自动忽略
–>登陆(如:steam等),模拟登陆
–>验证码(如:豆瓣等),模拟人的行为(简单的算法:加速度)
–>异步数据,异步处理
–>重定向页面(如:房天下等房屋数据的网站),有解决方法,对小白不是很友好
–>地址不全的(爬取不会自动补全,页面才可以),可以拼接
–>re(正则)可以筛选xpath格式不规范的数据
–>基本的数据库sql语句
–>(可以爬一些不太出名并且不是很久远而且排版很好的网站)51job,hao123影视,2345电影网之类的

以上,是进行scrapy爬虫项目之前的准备工作!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值