大数据基于被分析的海量数据。如何有效地提取和利用这些信息成为一个巨大的挑战。雅虎、谷歌等搜索引擎可以辅助检索数据和信息,但存在一定的不足。搜索引擎返回的结果信息量涉及方方面面,没有分类,针对性不强;造成搜索引擎服务器资源与无限网络数据资源之间的冲突;针对一般搜索引擎存在的问题,针对特定主题需求,针对网络资源进行定向爬取的聚焦爬虫应运而生。在实现网络爬虫时,他尽量保证只爬取和需求相关的网页信息并进行处理和过滤。根据所需的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入URL队列等待被抓取。爬虫爬过的所有网页都会被系统存储起来进行一定的分析、过滤和索引,以供后续查询和检索。
正题
Python 爬虫 scrapy 框架
Scrapy 是利用 Python 语言编写的网络爬虫框架。一个目的为了爬取网站内容,提取结构性数据而编写的开源爬虫应用框架。可以运用在包括数据挖掘,信息处理或者存储历史数据等一系列的程序中。Scrapy 最初的设计目的是页面抓取,也可以是用来获取各种 API 返回的数据。在 scrapy 项目中,只需写入定制的爬虫规则、运行即可快速获得所需要的数据信息。爬取网页内容代码如下:
def s_requests(self):
url = 'http://weburl:port'
headers = {
'Content-Type' : 'application/x 一 www-form-urlencoded ; charset=UTF-8
} yield scrapy.FormRequest ( url=url ,
headers=headers ,
callback=self.get_city)
网页爬取内容中的字段处理 def test(d_list,field):
f_list=[]
t_temp =d_list[field].values
for i i_temp:
temp = i.split(' ')
if len(temp) > 1