接1
- 编写爬虫spider,是用户编写用于从网站上爬取数据的类。里面需要包含:
- 用于下载的初始url(start_urls)
- 爬虫名字(name)
- 如何跟进网页中用户的链接(parse方法)
- 分析页面中的内容
- 提取生成item的方法
import scrapy
from scrapy.http import Request
from qiubai2.items import Qiubai2Item
class QiuBai2Spider(scrapy.Spider):
name = 'qiubai2'
start_urls = [
"http://www.qiushibaike.com/",
]
def parse(self, response):
for href in response.xpath('//span[@class="stats-comments"]/a/@href').extract():
detail_url = response.urljoin(href)
req = Request(detail_url, self.parse_detail_page)
item = Qiubai2Item()
req.meta["item"] = item
yield req
comments:
- 编写的spider类要继承于scrapy.Spider类
- 且定义三个属性(1.name-必须唯一,2.start_urls-启动时爬取的Url列表,3.parse()是spider的一个方法,调用时,每个初始Url完成下载后生成的response对象会作为唯一的参数传递给该函数,负责解析返回的数据)