lxml&&BeautifulSoup

最新推荐文章于 2024-08-21 16:44:17 发布

linalw

最新推荐文章于 2024-08-21 16:44:17 发布

阅读量162

点赞数 3

分类专栏：深度学习文章标签： servlet python java

本文链接：https://blog.csdn.net/weixin_62599885/article/details/126340073

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

lxml库之Xpath（解析本地文件）的简单使用

lxml库之Xpath（解析爬取的文件）&& Xpath插件简单使用

BeautifulSoup 库的使用

BeautifulSoup配合Xpath插件爬取商品名

简介

简单爬虫是爬取整个页面的内容，解析就是通过某种方法去得到我们想要的数据。

解析方法——

·path

·JsonPath

·BeautifulSoup

·正则表达式

lxml库

安装Xpath Helper 插件：帮助高效解析网页内容

lxml库的使用

W3c中文官方官方

lxml库之Xpath（解析本地文件）的简单使用

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>python之lxml库</title>
</head>
<body>
<ul>
    <li name="林" class="student">19-year-old</li>
    <wi name="文" class="student">18-year-old</wi>
</ul>
<ul>
    <li love-food="西红柿">生的</li>
    <wi love-food="月饼">豆沙馅</wi>
</ul>
<pr>
    <ul>
        <ti class="time">2018.9.5-2021.6.9</ti>
        <ti class="incident">we are good friends</ti>
    </ul>
</pr>
</body>
</html>

代码演示

from lxml import etree
tree=etree.parse('index.html')
list1=tree.xpath('/body/ul/li/text()')
print(list1)
list2=tree.xpath('//ul/wi[contains(@class,"student")]/text()')
print(list2)
list3=tree.xpath('//ul/li[@name="林" or @class="student"]/text()')
print(list3)
list4=tree.xpath('//ul/wi[starts-with(@name,"文")]/text()')
print(list4)
list5=tree.xpath('//ul/ti[@class="time"]/@class')
print(list5)