lxml&&BeautifulSoup

目录

 

简介

        解析方法——

lxml库

         lxml库的使用

         lxml库之Xpath(解析本地文件)的简单使用

         lxml库之Xpath(解析爬取的文件)&& Xpath插件简单使用

 BeautifulSoup 库的使用

         BeautifulSoup配合Xpath插件爬取商品名


 

简介

        简单爬虫是爬取整个页面的内容,解析就是通过某种方法去得到我们想要的数据。

        解析方法——

·path

·JsonPath

·BeautifulSoup

·正则表达式

lxml库

        安装Xpath Helper 插件:帮助高效解析网页内容

f42ead519c5d424e9b119c0aa6b2300c.png

 6d6ca960bcef493ab6bb25fb95d52b13.png

 d922cfae470940419f5806868e690993.png

         lxml库的使用

W3c中文官方        官方

046feca968d54035a3ca0fd5f4c017f2.png

         lxml库之Xpath(解析本地文件)的简单使用

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>python之lxml库</title>
</head>
<body>
<ul>
    <li name="林" class="student">19-year-old</li>
    <wi name="文" class="student">18-year-old</wi>
</ul>
<ul>
    <li love-food="西红柿">生的</li>
    <wi love-food="月饼">豆沙馅</wi>
</ul>
<pr>
    <ul>
        <ti class="time">2018.9.5-2021.6.9</ti>
        <ti class="incident">we are good friends</ti>
    </ul>
</pr>
</body>
</html>

代码演示

from lxml import etree
tree=etree.parse('index.html')
list1=tree.xpath('/body/ul/li/text()')
print(list1)
list2=tree.xpath('//ul/wi[contains(@class,"student")]/text()')
print(list2)
list3=tree.xpath('//ul/li[@name="林" or @class="student"]/text()')
print(list3)
list4=tree.xpath('//ul/wi[starts-with(@name,"文")]/text()')
print(list4)
list5=tree.xpath('//ul/ti[@class="time"]/@class')
print(list5)

f0c0288799f5404cbe30d4e2e9283184.png

 完整效果——

10698c4d08974a2bb4499b9379c0c003.png

         lxml库之Xpath(解析爬取的文件)&& Xpath插件简单使用

20274d322eb64820acb1b7809403d26e.png

3f357e7e48144028b1e728aeb96a268c.png

         lxml库之Xpath(解析爬取的文件)&& 下载图片

533a36c969f74eac87bb3f4d8c380fbe.png

5cf667362d8e465388cb38b3b2a62222.png

d9395ca6a6b941ed9cdccc3758009302.png

 BeautifulSoup 库的使用

cbddd9b3e78b49f0b509f0e65f616c02.png

 520ba9e9de404bfc9ef7a6858542ba12.png

 f4f8c0eceaea42e58eb0501eefce064b.png

 fbbc1ae8c9f04816ae13e245e4e5ae8b.png

 b33610ed188444c680db79cc086aee75.png

         BeautifulSoup配合Xpath插件爬取商品名

获取想要数据的步骤:先通过xpath插件获取对应的数据然后再将其转成对应的Ba4语法即可

3782b830b5934adb8e2a85ec957575bd.png

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

linalw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值