爬虫学习--9.三大数据解析方式对比

以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比:

  1. XPath

  • 优点:XPath可以通过路径表达式指定元素的位置,也可以通过属性和文本内容等信息来筛选元素,定位精确。XPath支持多种操作符和函数,可以进行各种条件过滤、排序、分组等操作。

  • 缺点:XPath的语法相对复杂,需要学习XPath语法和节点结构;XPath不支持CSS选择器等其他选择器。

  • 应用场景:XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况,例如从XML文件中抽取特定信息。

  1. BeautifulSoup4

  • 优点:BeautifulSoup4可以将HTML和XML等文档解析成树形结构,提供了各种方法来搜索和遍历文档树,使用起来比较灵活和方便。BeautifulSoup4支持CSS选择器和正则表达式等多种选择器来定位节点,可以根据需要选择不同的方式。

  • 缺点:BeautifulSoup4对文档结构要求不高,对于复杂的文档结构可能无法处理;BeautifulSoup4的性能相对较低。

  • 应用场景:BeautifulSoup4适用于需要处理HTML文档、对文档结构要求不高的情况,例如从网页中抽取信息。

  1. 正则表达式

  • 优点:正则表达式可以进行多种文本匹配和替换操作,例如查找、替换、分割、提取等。正则表达式能够支持更复杂的模式匹配和替换操作。

  • 缺点:正则表达式的语法相对复杂,需要学习正则表达式的规则和语法;正则表达式对于复杂的文本处理可能无法处理。

  • 应用场景:正则表达式适用于需要进行高级模式匹配和替换的情况,例如从文本中提取特定的信息。

综上所述,XPath、BeautifulSoup4和正则表达式各有优缺点和适用场景,可以根据具体需求选择不同的方式。XPath适用于XML和HTML文档结构比较复杂、需要进行多种条件筛选和操作的情况;BeautifulSoup4适用于处理HTML文档、对文档结构要求不高的情况;正则表达式适用于需要进行高级模式匹配和替换的情况。

数据解析总结案例

import requests
from lxml import etree
import re  # 内置库 不用我们下载
from urllib.request import urlretrieve
for i in range(1,100):
    url = f'http://www.godoutu.com/face/hot/page/{i}.html'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    html = requests.get(url,headers=headers).text
    element  = etree.HTML(html)
    alldiv = element.xpath('//div[@class="ui segment imghover"]/div[@class="tagbqppdiv"]')
    print(len(alldiv))
    for i in alldiv:
        everyhref = i.xpath('./a/img/@data-original')[0]
        # print(everyhref,type(everyhref))
        # print(str(everyhref).endswith('jpg'))
        title = i.xpath('./a/img/@title')[0]
        # print(title)
        newtitle = re.sub('[\/:*?<>|]','',title)
        # print(newtitle)
        if str(everyhref).endswith('jpg'):
            urlretrieve(everyhref,f'images/{newtitle}.jpg')
            print(f'{newtitle}.jpg下载成功')
        else:
            urlretrieve(everyhref, f'images/{newtitle}.gif')
            print(f'{newtitle}.gif下载成功')

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

F——

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值