NLP(3): 分词和拼写纠错

最新推荐文章于 2024-01-18 02:07:52 发布

weixin_51182518

最新推荐文章于 2024-01-18 02:07:52 发布

阅读量581

点赞数

文章标签：算法人工智能机器学习 python nlp

本文链接：https://blog.csdn.net/weixin_51182518/article/details/113730278

版权

第一节、Word Segmentation

1、 Tools

Jieba
SnowNLP
LTP
HanNLP

使用jieba

import  jieba
seg_list=jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(seg_list))
jieba.add_word("贪心学院")
seg_list=jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(seg_list))

在这里插入图片描述

2、segmentation method 1： Max matching

Forward max-matching

前向最大匹配：
在这里插入图片描述
定义一个参数：max_len=5，希望匹配到的单词越长越好

在这里插入图片描述
每次取五个，与词典中对比是否存在该词，如果不存在，从右边开始减一，直到匹配到目标单词为止。结束该次计算
将一次取五个的这个框向右移动上一次计算的单词的个数的步数。

backward-max matching

从后到前匹配,90%以上的与forward max-matching匹配到的一样
在这里插入图片描述

最大匹配的缺点

无法细分，有时候细分的结果是更好的

局部最优解，贪心未必最优

效率低，max_len越长，时间复杂度越高

歧义：无法考虑语义，看到的只是一个单词，不是语意（即上下文）]

3、segmentation method 2：Incorporate Semantic（考虑语义）

build a black box，将分词后的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_51182518

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

nlp系列-纠错程序

sindri的博客

02-15

1254

NLP实战（三）实现拼写纠错

Divine0的博客

06-06

3177

Part 3: 实现拼写纠错此项目需要的数据： vocab.txt: 这是一个词典文件，作为判断单词是否拼错的依据，任何未出现在词典中的词都认为拼写错误。 spell-errors.txt: 该文件记录了很多用户写错的单词和对应正确的单词，可以通过该文件确定每个正确的单词所对应的错误拼写方式，并计算出每个错误拼写方式出现的概率 testdata.txt: 记录了一些包含拼写错误的单词的文档，用于最后测试 Part 3.1 加载词典文件，根据错误单词，生成候选单词集合在这里插入代码片 ...

参与评论您还未登录，请先登录后发表或查看评论

NLP-拼写纠正

Swayzzu的博客

11-14

276

计算编辑距离，通过多少个操作才可以把写错的单词，转换成可能正确的单词。可以遍历一遍词典库里面的词去对比，但词典库内容可能很多，会增大时间复杂度 DP算法核心：把大问题，拆分成小问题 DP练习题看一下https://people.cs.clemson.edu/~bcdean/dp_practice/ ...

NLP智能文本纠错

Above the cloud

11-10

613

【NLP-文本纠错】从入门到精通

NLP学习笔记07-拼写纠错

bohu83的博客

01-18

215

一序本文属于NLP学习笔记系列。二纠错case 1 不在词典 2 词没错，但是不适合上下文。 2.1编辑距离关于文本纠错之编辑距离这是我之前整理的，项目里面用的。属于DP经典算法，可以用递归 https://leetcode-cn.com/problems/edit-distance/ 为了方便理解：网上找了两个图初始化：状态转移过程：编辑距离的操作：增加字符、删除字符、替换字符。我们定义一个dp[word1.length() + 1][word2.l.

NLP--分词、拼写纠错、停用词过滤、词的标准化、词袋向量

weixin_45422335的博客

04-20

1130

拼写纠错、分词编辑距离的计算：编辑距离可以用来计算两个字符串的相似度，它的应用场景很多，其中之一是拼写纠正（spell correction）。编辑距离的定义是给定两个字符串str1和str2, 我们要计算通过最少多少代价cost可以把str1转换成str2. 举个例子：输入: str1 = “geek”, str2 = “gesek” 输出: 1 插入 's’即可以把str1转换成s...

AI人工智能课程 NLP技术-自然语言处理入门资料中文分词（2）共23页.pdf

04-26

总结来说，马尔可夫模型和隐马尔可夫模型是自然语言处理中处理序列数据的重要工具，尤其在中文分词、语音识别和词性标注等任务中有着广泛的应用。它们通过对观察序列和隐藏序列的建模，帮助计算机理解并生成人类语言...

第三章 3、2 文本预处理之拼写纠错（Spell Correction）

qq_38888209的博客

02-23

745

一、什么是拼写纠错根据两个单词的编辑距离，计算相似度。可以将错误的单词改正。编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。那么，如何用Python计算编辑距离呢？我们可以从较为简单的情况进行分析...

NLP深入学习——拼写纠错（spell correction ）

weixin_42894555的博客

06-17

2168

文章目录返回主目录编辑距离(Edit Distance)方法改进返回主目录这是一个系列的文章，点击返回综合目录页编辑距离(Edit Distance) 概念：编辑距离是针对二个字符串（例如英文字）的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串应用：自然语言处理、生物信息学等简单举例说明： Python代码实现： # 基于动态规划的解法 def edit_dist(str1, str2): # m，n分别字符串str1和str2.

NLP基础之拼写纠错代码实现

weixin_45599022的博客

08-28

493

# 第一步：构建词库 vocab网上搜，自己爬都行 vocab = set([line.rstrip() for line in open('./vocab.txt')]) vocab 输出： { ‘widths’, ‘truer’, …} # 第二步：生成编辑距离为1的有效单词 # 定义函数生成所有编辑距离为1的候选单词 def generate_candidates(word): """ word: 给定的输入（错误的输入）返回所有(valid)候选集合 """

NLP是什么，百度的NLP技术有有哪些？

多智时代的博客

12-11

4576

在AI时代，我们希望计算机能够拥有视觉、听觉、行动以及语言的智能，而相对于听和看以及行动，语言是我们人类区别于其他动物的最重要特征之一。语言是我们思维的载体，也因此我们对于语言的理解和处理，变得尤为重要。而在计算机领域，自然语言处理(NLP,NaturalLanguageProcessing)就是研究如何让计算机理解并生成人类的语言，从而和人类平等流畅地沟通交流。自然语言处理技术在百度已经有悠久...

NLP纠错 | 恶意短信变体字还原、鲁棒性过滤与文本纠错竞赛概述与简单变体实现...

zenRRan的博客

03-28

1856

每天给你送来NLP技术干货！来自：老刘说NLP作者：刘焕勇文本纠错是自然语言处理的一个重要任务，也是文本处理的第一道坎，一个错误的文本表述可能会引起后续语义的错误表达，并对后续的效果产生影响。例如，以常见的输入错误为例，十分丰富多彩，常见错误类型包括：1、少字：微信跳一->微信跳一跳 2、多字：微信跳一跳跳->微信跳一跳 3、错字：微信挑一挑...

(NLP学习)(五)实现拼写纠错

Gavin's Blog

08-27

1727

拼写纠错错误的输入:s 正确的写法：c 基于朴素贝叶斯的Noisy channel Model： c=argmaxc∈candidatep(c∣s)=argmaxc∈candidatep(c∣s)∗p(c)c=argmax_{c\in candidate}p(c|s)=argmax_{c\in candidate}p(c|s)*p(c)c=argmaxc∈candidatep(c∣s)=arg...

NLP实践！文本语法纠错模型实战，搭建你的贴身语法修改小助手 ⛵