scrapy爬取数据数据是这样的 /html/body/div[4]/div[1]/div[1]/div[2]/p[1]

最新推荐文章于 2023-05-22 17:19:39 发布

小主早安

最新推荐文章于 2023-05-22 17:19:39 发布

阅读量3.9k

点赞数 1

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/xiaoxiamimm/article/details/110368492

版权

scrapy框架专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了在Python Scrapy爬虫项目中如何修复XPath语法错误，将原本错误的`[@class=“content”]/p`修正为正确的CSS选择器`div.content > p`。通过这个例子，开发者可以回顾XPath和CSS选择器的用法，确保爬取数据的准确性。

摘要由CSDN通过智能技术生成

同我之前爬取的数据不一样

import scrapy
import json

# 执行命令：scrapy crawl qiubai
class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    start_urls = ['http://www.XXXXX']

    def parse(self, response):
        id_list = []
        a = 0
        # /html/body/div[4]/div[1]/div[1]/div[2]/p[1]
        li_list = response.xpath('//div[@class="content"]/p')
        for li in li_list:
            author = li.xpath('.//text()').extract()
            author = ''.join(author)
            print( author)
            id_list.append(author)
        fp = open('./qiubai.txt', 'w', encoding='utf-8')
        json.dump(id_list, fp, ensure_ascii=False)

最主要的是应该写成：
//div[@class=“content”]/p
我写成了：[@class=“content”]/p
很久没爬数据忘记了

小主早安

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬取数据数据是这样的 /html/body/div[4]/div[1]/div[1]/div[2]/p[1]

同我之前爬取的数据不一样import scrapyimport json# 执行命令：scrapy crawl qiubaiclass QiubaiSpider(scrapy.Spider): name = 'qiubai' start_urls = ['http://www.XXXXX'] def parse(self, response): id_list = [] a = 0 # /html/body/div[4]/d
复制链接

扫一扫