基于scrapy框架的爬虫项目的准备工作
下载MySQL数据库
---->在MySQL中建对应的数据库,数据表,数据名
下载scrapy库
---->进入cmd虚拟环境:
–>cd F:\py\zhongruan\day17_scrapy #到达建scrapy项目的地址(一定要有地址,否则会报错)
–>scrapy startproject spiderproject #前两个是创建的语句 ,最后是项目名称(自定义)
–>cd spiderproject #进入项目
–>scrapy genspider jobspider www.baidu.com #后两个是爬虫主程序和要爬的网址
然后关闭cmd,开始在pycharm中敲代码
(记得在MySQL中建对应数据库,数据表,爬取的数据名)
scrapy crawl jobspider (打开爬虫文件名) #执行命令
#也可以不这样执行,用start脚本文件打开(需要配置对应文件)
选择要爬取的网站时注意下面情况与解决方法:
–>地址加密(如:B站等),换个网站爬吧,小白惹不起
–>文字加密(如:58同城,某知名小说网站等),换个网站爬吧,小白惹不起,大佬自动忽略
–>登陆(如:steam等),模拟登陆
–>验证码(如:豆瓣等),模拟人的行为(简单的算法:加速度)
–>异步数据,异步处理
–>重定向页面(如:房天下等房屋数据的网站),有解决方法,对小白不是很友好
–>地址不全的(爬取不会自动补全,页面才可以),可以拼接
–>re(正则)可以筛选xpath格式不规范的数据
–>基本的数据库sql语句
–>(可以爬一些不太出名并且不是很久远而且排版很好的网站)51job,hao123影视,2345电影网之类的
以上,是进行scrapy爬虫项目之前的准备工作!