- 安装 Scrapy:pip install scrapy -i https://mirrors.aliyun.com/pypi/simple/ (后面加上-i https://mirrors.aliyun.com/pypi/simple/ 国内资源会提高下载速度)
- 打开 Cmd / PyCharm–Terminal
- 进入想要创建爬虫项目的路径,输入:scrapy startproject 项目名称(创建爬虫项目)
- 进入项目,输入:scrapy genspider 爬虫名字 “host 地址” (创建爬虫文件)
- 设置settings,在pycharm中设置
序号 | 步骤 |
---|---|
(1) | 设置 ROBOTSTXT_OBEY = False |
robots 协议讲解:https://blog.csdn.net/wz947324/article/details/80633668(有些网站不允许爬虫访问,若遵守机器人协议,则无法爬取) | |
(2) | 开启 DOWNLOAD_DELAY = 3 |
下载延时:DOWNLOAD_DELAY = 3,访问服务器过了3s再要数据,用于模拟用户访问 | |
(3) | 开启:DEFAULT_REQUEST_HEADERS = { ‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,‘Accept-Language’: ‘en’,} |
在此可以设置默认的请求头,删除原有内容 | |
设置:User-Agent:------ | |
设置:Cookie:------ | |
(4) | 开启:DOWNLOADER_MIDDLEWARES = { ‘zhaobiao(项目名称).middlewares.ZhaobiaoDownloaderMiddleware’: 543,} |
下载中间件:配置代理 IP | |
(5) | 开启:ITEM_PIPELINES = { ‘zhaobiao(项目名称).pipelines.ZhaobiaoPipeline’: 300,} |
管道文件:指向 pipelines.py 文件 | |
(6) | scrapy 项目的运行 |
方法1:创建一个 start 文件:from scrapy import cmdline cmdline.execute('scrapy crawl bilian(爬虫文件名).split() | |
方法2:Terminal:cmdline.execute(‘scrapy crawl bilian(爬虫文件名)’.split()) |