可参考scrapy架构概览:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html
Spider(1)使用request获取网页.
(2)使用selector解析网页构建Item.
(3)使用pipeline存储获取的Item.
学习要点:
1. HTML语言,网页文本语言解读,标签语言,标签属性等。
2. Spider中的request和response,如何获取网页列表,如何复制网页内容,并将网页内容存起来以待分析,是Spider的动力源,驱动Spider发起动作
3. 得到response之后Spider使用selector去解析网页,使用selector获得自己想要的信息,selector解析HTML语言有多种方式,我们可以先学习XPath方法,使用Xpath解析HTML语言,获得自己想要的数据项Item
4. Spider中的Item,构造自己想要的Item模样,存储Item到自己创建的数据库中
Spider运作流程:
-
以初始的URL初始化Request,并设置回调函数。
The first requests to perform are obtained by calling the
start_requests()
method which (by default) generatesRequest
for the URLs specified in thestart_urls
and theparse
method as callback function for the Requests. -
在回调函数内分析返回的(网页)内容,返回
Item
对象或者Request
或者一个包括二者的可迭代容器。 返回的Request对象之后会经过Scrapy处理,下载相应的内容,并调用设置的callback函数(函数可相同)。 -
在回调函数内,您可以使用 选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容,并根据分析的数据生成item。
-
最后,由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。
关键细节点:
1. xpath 参考:
http://www.w3school.com.cn/xpath/
http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html
http://www.runoob.com/xpath/xpath-syntax.html
2. HTML语言,参考手册:http://www.w3school.com.cn/tags/html_ref_byfunc.asp
3. CSS选择器:http://www.w3school.com.cn/cssref/css_selectors.asp
4. 查看网页源码方法:google浏览器ctrl+shift+I 点击左上角小箭头 指定位置定位源码
5. 编辑自己的items,在文件Item.py中定义,(在所建的Scrapy工程中存在Item.py文件),使用语句:
from tutorial.items import DmozItem在调用Item的py文件中导入item定义。import关键字类似于c语言中的include
6. 编辑自己的pipelines,在文件pipelines.py中定义,pipeline是用来加工Item并将其导出到文件或数据库,并使用语句:
custom_settings = { 'ITEM_PIPELINES':{'spider.pipelines.BondPipeline': 300}, }
与主程序建立链接。