自然语言处理笔记（day1）

最新推荐文章于 2024-06-20 09:54:03 发布

咳咳~~

最新推荐文章于 2024-06-20 09:54:03 发布

阅读量63

点赞数 1

分类专栏：自然语言处理笔记文章标签：正则表达式 nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60805452/article/details/127697296

版权

自然语言处理笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

自然语言处理笔记(day1)

第2章正则表达式、文本规范化、编辑距离

2.1 正则表达式

2.1.1 基本正则表达式模式

字符串匹配：搜索首次匹配的字符串，大小写区分匹配。

[ ] ，[ - ] 可以对括号里面的字符串进行指定的搜索，搜索出[ ]括号中任意包含的某一个字符。

“^” 在[ ]中表示非、否定

/[ˆA-Z]/ 表示匹配不是大写字母的字符

/[eˆ] 表示匹配 ‘e’ 或者 ’^‘

/aˆb/ 表示匹配 ”a^b“

/colou?r/ 表示？前一个字符没有或者？后面的字符没有。

/aa*/ 匹配一个或多个a的正则表达式。

/[ab]*/ 表示“0个或多个a或b”(而不是“0个或多个右方括号”)

/[ 0-9 ][ 0-9 ]*/ 表示仅限整数的一串字符串

/[0-9]+/ 表示仅限整数的一串字符串

/baaa*!/ or /baa+!/ 表示

baa!
baaa!
baaaa!
baaaaa!
.........

/beg.n/ 表示“beg” 和 “n” 中间可以是任意字符（回车除外）.可以指定除回车以外的任意字符。

/.*/ 表示任意字符串

/ˆ 单独的“^”表示这一行的开始

/$ 表示一行的结尾

\b 表示单词边界

\B 表示非单词边界

2.1.2 分离、分组和优先级

“|” 析取

/cat|dog/ 表示匹配字符串cat 或者 dog

/gupp(y|ies) 表示匹配 guppy 或者 guppies

模式匹配时会尽可以的匹配最长的字符串

2.1.2 一个简单的例子（匹配精度一步步提高的过程）

情况一：

/the/ 缺少The

/[T/t]he/ the为嵌入的字符时匹配错误

/\b[T/t]he\b/ 为the增加了边界，成功

情况二：

/the/ 缺少The

/[T/t]he/ the为嵌入的字符时匹配错误

/[^a-zA-Z][T/t]he[^a-zA-Z]/ 当the为首单词时，不能匹配，要求了the之前或之后必须有字符（非字母）

/[^|^{A-Za-z][T/t]he[$|}A-Za-z]/ 要求了the可以为首字母，成功

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理笔记（day1）

自然语言处理、正则表达式、基本正则表达式模式、分离、分组和优先级、一个简单的例子（匹配精度一步步提高的过程）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。