scrapy-2

最新推荐文章于 2024-08-21 08:26:02 发布

BetterL

最新推荐文章于 2024-08-21 08:26:02 发布

阅读量180

点赞数

分类专栏：边学边记

本文链接：https://blog.csdn.net/xinqing8705/article/details/60139346

版权

边学边记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

接1

编写爬虫spider，是用户编写用于从网站上爬取数据的类。里面需要包含：
- 用于下载的初始url（start_urls)
- 爬虫名字(name)
- 如何跟进网页中用户的链接(parse方法）
- 分析页面中的内容
- 提取生成item的方法

import scrapy
from scrapy.http import Request
from qiubai2.items import Qiubai2Item

class QiuBai2Spider(scrapy.Spider):
    name = 'qiubai2'
    start_urls = [
        "http://www.qiushibaike.com/",
    ]

     def parse(self, response):
         for href in response.xpath('//span[@class="stats-comments"]/a/@href').extract():
            detail_url = response.urljoin(href)
            req = Request(detail_url, self.parse_detail_page)
            item = Qiubai2Item()
            req.meta["item"] = item
            yield req

comments:
- 编写的spider类要继承于scrapy.Spider类
- 且定义三个属性（1.name-必须唯一，2.start_urls-启动时爬取的Url列表，3.parse()是spider的一个方法，调用时，每个初始Url完成下载后生成的response对象会作为唯一的参数传递给该函数，负责解析返回的数据）