Python 数据的解析

Python 数据的解析

当我们获取到整个数据文本之后,接下来就需要我们将这些数据进行整理分析,解析出我们需要的数据。下面笔记主要记录xpath和bs4的基本用法,这两个详细知识点很多,如果有没讲到的,估计是我没学习到或者忘记了,回头复习的时候,加上。



前言

在这里,数据解析的基础都是建立对HTML的文本结构还有节点有个基本的了解,学习起来会比较快。


提示:以下是本篇文章正文内容,下面案例可供参考

一、xpath?

使用路径表达式来选取HTML/XML文档中得节点或者节点集。节点是通过沿着路径(path)或者步(step)来选取的。可能写得不是很清楚。

1、方法

五个经常需要搭配使用的方法:
1: / 从根节点选择
2: // 从匹配选择的房前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)
3: . 选取当前节点
4: … 选取当前节点的父节点
5: @ 选取属性

2、谓语

谓语 用来查找某个特定节点或者包含某个指定的值的节点 被嵌在方括号中
/bookstore/book[1] 选取属于bookstore子元素的的第一个book元素
/bookstore/book[last()] 选择属于bookstore 子元素的最后一个book元素
/bookstore/book[last() - 1] 选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position() < 3] 选择最前面的两个属于bookstore 元素的子元素的book元素
//title[@lang] 选择所有拥有名为lang的属性的title元素
//title[@lang = ‘eng’] 选择所有title元素,且这些元素拥有值为eng的lang属性

3、例子

上面的笔记看起来,挺难懂得,一开始我也看的一愣一愣得,不过后面多敲几个脚本,就自然得懂了,也理解了。如下:

# 我获取到一个菜谱网页地址,请求返回了数据
import requests
from lxml import etree
url = "https://www.douguo.com/caipu/%E5%AE%B6%E5%B8%B8%E8%8F%9C"
headers = {"User-Agent": "自己复制自己网页上得数据即可",}
response = requests.get(url, headers=headers)
# 之类利用etree得HTML方法将请求返回得数据文本转换成HTML模式,方便我们读取节点信息
html = etree.HTML(response.text)
# 这里我们就使用到了上面得知识点:“//”,搭配“[@class="cook-list"]”
# 意思就是说:从整个html中找到节点为ul 并且样式名称为“cook-list”
# 然后后面跟着://li[@class="clearfix"] 意思就是,接上面ul下节点寻找所有li得节点并且
# 样式为“clearfix”得节点信息,保存到data_list 中
data_list = html.xpath('//ul[@class="cook-list"]//li[@class="clearfix"]')
print(data_list)# 这里打印出来得信息是一个列表,里面还是要通过xpath处理才能得出需要得信息。
# 我们用循环获取我们需要用到的数据
for datain data_list:d
    title = data.xpath('./a/@title')[0] # 通过"./"找到当前节点下“/a”节点的属性“title”下表为0的数据
    major = data.xpath('./div/p/text()')[0] # 通过"./"找到当前节点下“/p”节点的“text()”文本数据
    score = data.xpath('./div/div[1]/span[2]/text()')# 通过"./"找到当前节点下第一个“div”下的第二个“span[2]”下的文本数据
    upZ = data.xpath('./div/div[2]/a[1]/text()')[1].strip()# 通过"./"找到当前节点下第二个“div”下的第以一个“a”下的文本数据,并且进行清除空格(“.strip()”)操作
	print(title, major, score, upZ)# 可以打印出数据看下

嗯,看起来很乱,有点复杂,不过你只需要敲个两遍,好好理解下上面五个用法,然后配合节点的属性,多看下,就很快能熟悉了。
提示:可以在对应在网页上面右键获取源代码,查看下自己需要筛选的节点信息,就知道该写哪些节点名称和对应的睡醒了


二、bs4

由于 Bautiful Soup 是第三方库,因此需要单独下载:pip install bs4
然后在脚本的开头,需要导入:from bs4 import BeautifulSoup

1、基本用法

from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
html = """
	<html><head><title>"你好呀网站"</title></head>
	<body>
	<p class="title"><b>c.hellworld.net</b></p>
	<p class="main">欢迎欢迎
	<a href="http://c.hellworld.com/one/" id="link1">主页</a>
	<a href="http://c.hellworld.com/c/" id="link2">联系我们</a>
"""
soup = BeautifulSoup(html, 'lxml')# 这里lxml属性是解析器,也可以是其他的解析器
# 格式化输出代码
print(soup.prettify())

2、常用语法

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p class="title"><b>大家好</b></p>', 'lxml')
#获取整个p标签的html代码
print(soup.p)
#获取b标签
print(soup.p.b)
#获取p标签内容
print(soup.p.text)

3、find()和find_all()

find()和find_all()在bs4中是很关键的两个方法,顾名思义:find() 针对单个节点,find_all() 针对多个

find_all( name , attrs , recursive , text , limit )
参数说明:
name:查找所有名字为 name 的标签
attrs:按照属性名和属性值进行搜索,由于 class 是 Python 的关键字,所以要使用 “class_”,才不会报错。
recursive:会搜索所有子孙节点,设置 recursive=False 可以只搜索 直接子节点。
text:搜文档中的字符串数据,参数可以接受字符串 、正则表达式 、列表、True。
limit:可以限制返回结果的数量,如limit = 2,就是表示返回数量只接受两个。

# print(soup.find(id="link3")) #  直接找
# print(soup.find("a", id="link3")) # 完整写法,比较好
# print(soup.find(class_="story"))# 这里class_ 需要在最后加上下划线
# print(soup.find_all("a"))   # 返回一个列表 可以应用到作业那
# print(soup.find_all("a", limit=2))  # 寻找父级

总结

xpath和bs4 两个解析数据都可以用,不过用得较多的是xpath,bs4看起来写起来也很简洁,脚本相比xpath短了不少,不过相对的方法和应用代码就需要多去记了。xpath写起来可能会长点,但是5个方法,用起来不需要好太多的时间记忆,并且用的方法也很快能上手。不过看谁用,看在哪些场景上用,找到适合的方法和场景用哪种方法,才是最优解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值