scrapy 初探(css)

最新推荐文章于 2021-10-10 19:50:28 发布

小溪彼岸

最新推荐文章于 2021-10-10 19:50:28 发布

阅读量371

点赞数

分类专栏： # python3 文章标签： scrapy

本文链接：https://blog.csdn.net/zww1984774346/article/details/90046450

版权

本文介绍了Scrapy项目的基本初始化和配置，并重点讲解了CSS选择器的使用，包括通过标签的class、id以及层级结构来选取数据。示例中展示了如何使用和选择器来获取内容。

摘要由CSDN通过智能技术生成

初始化项目及项目配置同scrapy 初探(xpath)一样

新建zwblog/spiders/lianjia_spider.py内容如下：

# -*- coding: utf-8 -*-
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from LjCrwaler.items import LianjiaItem

class LJCrwalerSpider(CrawlSpider):
    name = 'ljcrwaler'
    allowed_domains = ['lianjia.com']
    start_urls = ['https://qd.lianjia.com/ershoufang/']

    # 设置抓取规则
    rules = {
        # 房产详情链接
        Rule(LinkExtractor(
            restrict_xpaths="//ul[@class='sellListContent']/li/div[@class='info clear']/div[@class='title']/a"),
             follow=True, callback="process_item"),
        # 翻页链接
        Rule(LinkExtractor(restrict_xpaths="//div[@class='pagination_group_a']/a"), follow=True)

最低0.47元/天解锁文章

小溪彼岸

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy 初探(css)

初始化项目及项目配置同scrapy 初探(xpath)一样新建zwblog/spiders/lianjia_spider.py内容如下：# -*- coding: utf-8 -*-from scrapy.spiders import CrawlSpider, Rulefrom scrapy.linkextractors import LinkExtractorfrom LjCrwale...
复制链接

扫一扫

专栏目录