scrapy框架的安装
一开始直接用pip install scrapy 安装, 结果如图
然后在群里各种问, 最后群友们推荐anaconda下安装, 关于这个可以参考Anaconda 环境下安装 Scrapy。 总之也是一个辛酸的故事~~~。 安装好了在命令提示符下面输入scrapy, 终于不是“scrapy不是内部或外部命令,也不是可运行的程序或批处理文件。” 这个东西了-^-。
scrapy初使用
首先要先建立一个工程
- 建立一个工程:scrapy startproject python123demo。
- python123demo表示工程名字。打开建立的工程
你会发现目录下面有这个东西
介绍如下:
- 在工程中生成一个spider:scrapy genspider demo python123.io。 demo表示爬虫名字, pyhton123.io表示要爬取网站域名
- 生成的spider相关信息如图:
- spider的名字可以随便取, 但是这个class必须继承scrapy.Spider
- name:spider名字
- allowed_domains:爬取网页的域名
- start_urls:爬取网页的初始页面
- parse方法:解析网页的方法
- 接下来就是完成这个.yp文件了。
- 运行这个爬虫:在工程下面执行scrapy crawl demo。 demo为spider名字。 就可以执行了
简单的总结一下
- 建立工程:scrapy startproject + 工程名字。 建立功成之后出现一串目录
- 生成一个spider:scrapy genspider + 名字 + 要爬取的网站域。 位于spider目录下
- 运行这个spider:scrapy crawl + 名字。 它就欢快的运行了。
部分内容参考自:http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001