Python 数据的解析

你踩我脚趾了

已于 2023-12-07 15:55:15 修改

阅读量59

点赞数

文章标签： python 开发语言

于 2023-03-16 11:20:31 首次发布

本文链接：https://blog.csdn.net/weixin_44747247/article/details/129580843

版权

Python 数据的解析

当我们获取到整个数据文本之后，接下来就需要我们将这些数据进行整理分析，解析出我们需要的数据。下面笔记主要记录xpath和bs4的基本用法，这两个详细知识点很多，如果有没讲到的，估计是我没学习到或者忘记了，回头复习的时候，加上。

文章目录

Python 数据的解析
前言
一、xpath？
二、bs4
总结

前言

在这里，数据解析的基础都是建立对HTML的文本结构还有节点有个基本的了解，学习起来会比较快。

提示：以下是本篇文章正文内容，下面案例可供参考

一、xpath？

使用路径表达式来选取HTML/XML文档中得节点或者节点集。节点是通过沿着路径（path）或者步（step）来选取的。可能写得不是很清楚。

1、方法

五个经常需要搭配使用的方法：
1: / 从根节点选择
2: // 从匹配选择的房前节点选择文档中的节点，而不考虑它们的位置（取子孙节点）
3: . 选取当前节点
4: … 选取当前节点的父节点
5: @ 选取属性

2、谓语

谓语用来查找某个特定节点或者包含某个指定的值的节点被嵌在方括号中
/bookstore/book[1] 选取属于bookstore子元素的的第一个book元素
/bookstore/book[last()] 选择属于bookstore 子元素的最后一个book元素
/bookstore/book[last() - 1] 选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position() < 3] 选择最前面的两个属于bookstore 元素的子元素的book元素
//title[@lang] 选择所有拥有名为lang的属性的title元素
//title[@lang = ‘eng’] 选择所有title元素，且这些元素拥有值为eng的lang属性

3、例子

上面的笔记看起来，挺难懂得，一开始我也看的一愣一愣得，不过后面多敲几个脚本，就自然得懂了，也理解了。如下：

# 我获取到一个菜谱网页地址，请求返回了数据
import requests
from lxml import etree
url = "https://www.douguo.com/caipu/%E5%AE%B6%E5%B8%B8%E8%8F%9C"
headers = {"User-Agent": "自己复制自己网页上得数据即可",}
response = requests.get(url, headers=headers)
# 之类利用etree得HTML方法将请求返回得数据文本转换成HTML模式，方便我们读取节点信息
html = etree.HTML(response.text)
# 这里我们就使用到了上面得知识点：“//”，搭配“[@class="cook-list"]”
# 意思就是说：从整个html中找到节点为ul 并且样式名称为“cook-list”
# 然后后面跟着：//li[@class="clearfix"] 意思就是，接上面ul下节点寻找所有li得节点并且
# 样式为“clearfix”得节点信息，保存到data_list 中
data_list = html.xpath('//ul[@class="cook-list"]//li[@class="clearfix"]')
print(data_list)# 这里打印出来得信息是一个列表，里面还是要通过xpath处理才能得出需要得信息。
# 我们用循环获取我们需要用到的数据
for datain data_list:d
    title = data.xpath('./a/@title')[0] # 通过"./"找到当前节点下“/a”节点的属性“title”下表为0的数据
    major = data.xpath('./div/p/text()')[0] # 通过"./"找到当前节点下“/p”节点的“text()”文本数据
    score = data.xpath('./div/div[1]/span[2]/text()')# 通过"./"找到当前节点下第一个“div”下的第二个“span[2]”下的文本数据
    upZ = data.xpath('./div/div[2]/a[1]/text()')[1].strip()# 通过"./"找到当前节点下第二个“div”下的第以一个“a”下的文本数据，并且进行清除空格（“.strip()”）操作
	print(title, major, score, upZ)# 可以打印出数据看下

嗯，看起来很乱，有点复杂，不过你只需要敲个两遍，好好理解下上面五个用法，然后配合节点的属性，多看下，就很快能熟悉了。
提示：可以在对应在网页上面右键获取源代码，查看下自己需要筛选的节点信息，就知道该写哪些节点名称和对应的睡醒了

二、bs4

由于 Bautiful Soup 是第三方库，因此需要单独下载：pip install bs4
然后在脚本的开头，需要导入：from bs4 import BeautifulSoup

1、基本用法

from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
html = """
	<html><head><title>"你好呀网站"</title></head>
	<body>
	<p class="title"><b>c.hellworld.net</b></p>
	<p class="main">欢迎欢迎
	<a href="http://c.hellworld.com/one/" id="link1">主页</a>
	<a href="http://c.hellworld.com/c/" id="link2">联系我们</a>
"""
soup = BeautifulSoup(html, 'lxml')# 这里lxml属性是解析器，也可以是其他的解析器
# 格式化输出代码
print(soup.prettify())

2、常用语法

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p class="title"><b>大家好</b></p>', 'lxml')
#获取整个p标签的html代码
print(soup.p)
#获取b标签
print(soup.p.b)
#获取p标签内容
print(soup.p.text)

3、find()和find_all()

find()和find_all()在bs4中是很关键的两个方法，顾名思义：find() 针对单个节点，find_all() 针对多个

find_all( name , attrs , recursive , text , limit )
参数说明：
name：查找所有名字为 name 的标签
attrs：按照属性名和属性值进行搜索，由于 class 是 Python 的关键字，所以要使用 “class_”,才不会报错。
recursive：会搜索所有子孙节点，设置 recursive=False 可以只搜索直接子节点。
text：搜文档中的字符串数据，参数可以接受字符串、正则表达式、列表、True。
limit：可以限制返回结果的数量，如limit = 2，就是表示返回数量只接受两个。

# print(soup.find(id="link3")) #  直接找
# print(soup.find("a", id="link3")) # 完整写法，比较好
# print(soup.find(class_="story"))# 这里class_ 需要在最后加上下划线
# print(soup.find_all("a"))   # 返回一个列表 可以应用到作业那
# print(soup.find_all("a", limit=2))  # 寻找父级

总结

xpath和bs4 两个解析数据都可以用，不过用得较多的是xpath，bs4看起来写起来也很简洁，脚本相比xpath短了不少，不过相对的方法和应用代码就需要多去记了。xpath写起来可能会长点，但是5个方法，用起来不需要好太多的时间记忆，并且用的方法也很快能上手。不过看谁用，看在哪些场景上用，找到适合的方法和场景用哪种方法，才是最优解。