浅学数据解析

晨旭不想写程序

已于 2023-06-28 16:15:02 修改

阅读量1.8w

点赞数 2

文章标签： python

于 2023-06-28 15:35:23 首次发布

本文链接：https://blog.csdn.net/weixin_74170225/article/details/131438206

版权

文章介绍了Python中两种常用的数据解析方法：正则表达式(re模块)和BeautifulSoup库。正则表达式用于精确匹配和查找文本，例如通过边界匹配单词Hi。BeautifulSoup则用于解析HTML文档，提供了方便的接口来遍历和操作DOM树。文章强调了两者在处理文本和网页数据时的重要作用。

摘要由CSDN通过智能技术生成

最近学习的部分知识

数据解析

在最近学习中我们学习了两种解析方法，分别是正则表达式的re解析与BeautifulSoup解析器的使用

一、正则表达式

正则表达式是用来避免重复工作，处理有规律信息的一个有力工具

import re text = "Hi, I am Shirley Hilton. I am his wife." m = re.findall(r"hi", text) if m: print (m) else: print ('not match')

这是一个小实验，通过它来看，我们不难看出这是在通过某种方法寻找"Hi, I am Shirley Hilton. I am his wife."这段话中的"hi"通过这个我们发现会有两个结果，都是hi,分别来自于Shirly与his俩单词，由此我们看出，正则表达式是严格的，区分大小写的，Hi并不满足要求。

当然，不仅仅有这样的查找，也可以仅仅找部分的，比如只匹配“Hi”，在这段话中只想要计数一次，那么我们可以采用"\bHi\b"的查找对象，这样就能仅仅匹配单独的Hi啦。

“\b”在正则表达式中表示单词的开头或结尾，空格、标点、换行都算是单词的分割。而“\b”自身又不会匹配任何字符，它代表的只是一个位置。所以单词前后的空格标点之类不会出现在结果里。

然后[]符号的作用也很大，它的作用是表示满足括号中任一字符，例如我们想要Hi也想要hi，就可以[Hh]i

r

接下来继续解释这个小试验中的内容，在语句传参时的r的含义，为什么要加r？
r，是raw的意思，它表示对字符串不进行转义。例如：

>>> print ("\bhi") hi >>> print (r"\bhi") \bhi

re

re是python里的正则表达式模块。findall是其中一个方法，用来按照提供的正则表达式，去匹配文本中的所有符合条件的字符串。返回结果是一个包含所有匹配的list。

特殊字符

这里介绍

.	除换行符以外的任意字符
\S	不是空白符的任意字符
*****	表示前面的字符可以重复任意多次（包括0次）
+	表示前面的字符可以重复任意多次（不包括0次）
{}	表示指定长度
[]	[]内任意字符
\w	匹配字母或数字或下划线或汉字
\d	匹配数字
\s	匹配空白符
^	匹配字符串的开始
$	匹配字符串的结束
?	重复零次或一次（懒惰匹配）
{n,}	重复n次或更多次
{n,m}	重复n到m次

很容易猜想到，如\s\S这样大小写的区分就是正反的区别，由此推出各个对应的相反，此外，[]内通过加就代表除此符号外任意字符

.*	贪婪匹配
*/?**	懒惰匹配

二、BeautifulSoup解析器

[1]简介

Beautiful Soup是Python的一个库，能够从网页抓取数据提供了一些函数用来处理数据，用很少的代码就能够写出来一个完整的程序。

[2]特点

Beautiful Soup能够自动的将文档转换为utf-8编码格式，能够更为方便的进行使用

使用

[1]创建对象

要想创建一个Beautiful Soup对象，首先要导入库bs4，lxml，requests。

这里使用一个实例

html = """ <html><head><title>The Dormouse's story</title></head> <body> The Dormouse's story Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1"></a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well. ... """ soup = BeautifulSoup(html,'lxml') #创建 beautifulsoup 对象

同时也可以使用HTML文件直接创建对象

soup1 = BeautifulSoup(open('index.html'))