XPath基本用法

最新推荐文章于 2024-01-12 16:49:17 发布

李克鹏

最新推荐文章于 2024-01-12 16:49:17 发布

阅读量474

点赞数

分类专栏： Python 文章标签：前端 html5

本文链接：https://blog.csdn.net/weixin_45738390/article/details/124655324

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文介绍了如何利用Python的requests库获取网页HTML内容，并通过lxml和etree解析HTML，提取元数据。接着，展示了在Scrapy框架下创建爬虫，设置起始URL，以及使用XPath解析器来提取所需信息。文章详细阐述了网络爬虫的基本步骤，适用于初学者掌握网页数据抓取技术。

摘要由CSDN通过智能技术生成

绝对路径：/step/step/...

相对路径：//step/step/....

提取元数据：a/text() --------> 原创

提取属性数据：a/@class --------> article-type article-type-yc

提取目标数据：

//div[@class="article-type article-type-yc"]

-------->

应用过程：

1、requests

from lxml import etree
import requests
url = “ ”
html = requests.get(url).text
txt = etree.HTML()

2、scrapy

class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['']
    start_urls = []

    for i in range(1, 3):
        url = 'http://......page{}'.format(i)
        start_urls.append(url)

    def parse(self, response):
        res = response.xpath('//div[@class=" "]')