XPath基本用法

本文介绍了如何利用Python的requests库获取网页HTML内容,并通过lxml和etree解析HTML,提取元数据。接着,展示了在Scrapy框架下创建爬虫,设置起始URL,以及使用XPath解析器来提取所需信息。文章详细阐述了网络爬虫的基本步骤,适用于初学者掌握网页数据抓取技术。
摘要由CSDN通过智能技术生成

绝对路径:/step/step/...

相对路径://step/step/....

<div class="article-type article-type-yc" data-v-6fe2b6a7="">原创</div>

提取元数据:a/text() --------> 原创

提取属性数据:a/@class --------> article-type article-type-yc

提取目标数据:

//div[@class="article-type article-type-yc"]

 -------->

<div class="article-type article-type-yc" data-v-6fe2b6a7="">原创</div>

应用过程:

1、requests

from lxml import etree
import requests
url = “ ”
html = requests.get(url).text
txt = etree.HTML()

2、scrapy

class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['']
    start_urls = []

    for i in range(1, 3):
        url = 'http://......page{}'.format(i)
        start_urls.append(url)

    def parse(self, response):
        res = response.xpath('//div[@class=" "]')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值