scrapy-2

接1

  1. 编写爬虫spider,是用户编写用于从网站上爬取数据的类。里面需要包含:
    • 用于下载的初始url(start_urls)
    • 爬虫名字(name)
    • 如何跟进网页中用户的链接(parse方法)
    • 分析页面中的内容
    • 提取生成item的方法
import scrapy
from scrapy.http import Request
from qiubai2.items import Qiubai2Item

class QiuBai2Spider(scrapy.Spider):
    name = 'qiubai2'
    start_urls = [
        "http://www.qiushibaike.com/",
    ]

     def parse(self, response):
         for href in response.xpath('//span[@class="stats-comments"]/a/@href').extract():
            detail_url = response.urljoin(href)
            req = Request(detail_url, self.parse_detail_page)
            item = Qiubai2Item()
            req.meta["item"] = item
            yield req

comments:
- 编写的spider类要继承于scrapy.Spider类
- 且定义三个属性(1.name-必须唯一,2.start_urls-启动时爬取的Url列表,3.parse()是spider的一个方法,调用时,每个初始Url完成下载后生成的response对象会作为唯一的参数传递给该函数,负责解析返回的数据)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值