实例网页:https://python123.io/ws/demo.html
准备工作:在E盘中新建一个文件夹pyscrapyfile
步骤如下:
1.建立一个工程,工程名为python123demo
在命令行下进行E盘中的pyscrapyfile文件夹,输入命令
scrapy startproject python123demo
如上图,工程建立之后会出现这些文件与文件夹,下面简单介绍这些文件
python123demo/是最外层目录
scrapy.cfg 部署scrapy爬虫的配置文件
python123demo/文件夹scrapy框架的用户定义的python代码
init.py 初始化脚本 不需要修改
items.py Items代码模板
middlewares.py middlewares代码模板
pipelines.py pipelines代码
settings.py 爬虫配置文件
spiders/ 模板目录
init.py 初始文件 不需要修改
pycache.py 缓存目录,无需修改
第二步:产生一个爬虫
scrapy genspider demo python123.io
demo是爬虫名字,python123.io是要爬取的网站
demo爬虫产生在spiders文件夹下
第三步:配置产生的爬虫文件
allowed_domains 表示只能爬取该url下的文件
start_urls修改为爬取得网页链接
第四步:运行爬虫
scrapy crawl demo
爬虫爬取成功!!