一个英文拼写纠错的思路（English Spelling check）

最新推荐文章于 2023-08-13 17:43:02 发布

weixin_43597287

最新推荐文章于 2023-08-13 17:43:02 发布

阅读量2.1k

点赞数 2

分类专栏： English Spell correction 文章标签： English Spell correction

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43597287/article/details/98173018

版权

English Spell correction 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种基于词频和n-gram概率的英文拼写纠错算法思路，通过统计大量语料库中的单词词频及bi-gram和tri-gram概率，结合最小编辑距离或骨架键法找出拼写错误单词的候选词，最终选取词频高且n-gram概率大的词进行修正。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分享一个英文拼写纠错的思路，暂时无完整代码，后续如果实现会继续更新

英文拼写纠错这个问题由来已久，在这方面做的最好的就是谷歌了，现在我想自己实现一下这个功能，才疏学浅，分享一下自己的小想法。如果大家有更好的思路或者实现代码，请大家推给我，我会虚心学习。

一、统计英文单词词频

使用一个很大的英文文本语料库统计出每个单词的词频，生成一个词频文件备用。

二、统计bi-gram ,tri-gram 概率

在这个很大的英文文本语料库中统计出前后两个词或者三个词搭配的概率，生成两个文件备用。

三、

输入一个句子，例： I am a students. 单个单个单词判断正确率，在第一个词频文件中判断词频高低。 I , am , a 这三个单词出现的频率很高，不用考虑它们了。接下来是Students，它出现频率不是那么高，那么使用bi-gram 或者tri-gram ，取 students 前面的单词 a 和students 一起组成 a students 去bi-gram 文件中查找组合频率高不高，如果不高，那么有可能是students拼写错了。找students的候选词也就是很相近的词，可以使用最小编辑距离也可以使用骨架键法，找出来之后挑选出词频比较高的词，再与 a 组合起来去bi-gram 中找高频高概率的组合，改正过来就是最终结果了。如果还是找不出的话，就要使用tri-gram, 就是取students 后面的词（如果有的话，这个例子中没有），组成一个三元组合，去tri-gram 中找到频率概率最高的改正过来即可。
最后放一个核心思想的流程图
在这里插入图片描述

weixin_43597287

博客等级

码龄7年

5
原创

31
点赞

126
收藏

14
粉丝

关注

私信

热门文章

分类专栏

最新评论

python训练XGB模型，使用Java调用踩坑
冷冻的三文鱼: 博主请教下，实际如果只用这45个特征输出的结果偏差大不大
Pytorch+CNN 识别自己手写的数字
力争上游_: 感觉这个网络有问题，识别的不准确
python训练XGB模型，使用Java调用踩坑
CSDN-Ada助手: 恭喜您写了第6篇博客！标题看起来很有趣，使用Java调用XGB模型肯定是个挑战，也是很多人感兴趣的话题。我希望您能在博客中分享一下您遇到的具体问题和解决方案，这样可以帮助更多的读者避免踩坑。同时，如果您愿意的话，我还建议您可以进一步探讨一下如何优化XGB模型在Java环境中的性能，或者分享一些使用Python训练XGB模型的其他技巧和经验。期待您的下一篇创作！
XGB原生接口的训练保存和加载
CSDN-Ada助手: 恭喜您写出了这篇关于XGB原生接口的训练保存和加载的博客！这个主题非常实用，对于正在学习XGB的人来说很有帮助。希望您能继续分享您的经验和知识，让更多人受益。下一步的创作建议可以考虑探讨一些实际应用场景，或者分享一些XGB在特定领域中的成功案例。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Pytorch+CNN 识别自己手写的数字
weixin_43597287: 好早以前写的了，当时确实没问题，我这几天看看是怎么事，之后把示例图片和代码放到github上。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。