python3 实现英文文本的uni-gram和bi-gram

最新推荐文章于 2023-09-26 22:15:39 发布

weixin_43597287

最新推荐文章于 2023-09-26 22:15:39 发布

阅读量1.7k

点赞数 1

分类专栏： English Spell correction 文章标签： n-gram

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43597287/article/details/98745498

版权

python3 实现英文文本的uni-gram和bi-gram

接上一个英文拼写检查错误的思路，开始代码实现。首先我们需要一个比较大的英文语料来进行分析。我使用的是training-monolingual，也可以使用其他的。

1. 由语料生成uni-gram和bi-gram

代码如下：

import sys

class NGram(object):

    def __init__(self, n):
        # n is the order of n-gram language model
        self.n = n
        self.unigram = {}
        self.bigram = {}

    # scan a sentence, extract the ngram and update their
    # frequence.
    #
    # @param    sentence    list{str}
    # @return   none
    def scan(self, sentence):
        fip = ""
        # file your code here
        for line in sentence:
            self.ngram(line.split())
        # unigram
        if self.n == 1:
            try:
                fip = open("data.uni", "w", encoding='utf-8')
            except:
                print(sys.stderr, "fail

最低0.47元/天解锁文章

weixin_43597287

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
python3 实现英文文本的uni-gram和bi-gram

python3 实现英文文本的uni-gram和bi-gram接上一个英文拼写检查错误的思路，开始代码实现。首先我们需要一个比较大的英文语料来进行分析。我使用的是training-monolingual，也可以使用其他的。1. 由语料生成uni-gram和bi-gram代码如下：import sysclass NGram(object): def __init__(self,...
复制链接

扫一扫

专栏目录

weixin_43597287 CSDN认证博客专家 CSDN认证企业博客

码龄6年

5: 原创

118万+: 周排名

116万+: 总排名

1万+: 访问

: 等级

209: 积分

14: 粉丝

31: 获赞

34: 评论

124: 收藏

私信

关注

热门文章

分类专栏

最新评论

python训练XGB模型，使用Java调用踩坑
冷冻的三文鱼: 博主请教下，实际如果只用这45个特征输出的结果偏差大不大
Pytorch+CNN 识别自己手写的数字
_max_max: 感觉这个网络有问题，识别的不准确
python训练XGB模型，使用Java调用踩坑
CSDN-Ada助手: 恭喜您写了第6篇博客！标题看起来很有趣，使用Java调用XGB模型肯定是个挑战，也是很多人感兴趣的话题。我希望您能在博客中分享一下您遇到的具体问题和解决方案，这样可以帮助更多的读者避免踩坑。同时，如果您愿意的话，我还建议您可以进一步探讨一下如何优化XGB模型在Java环境中的性能，或者分享一些使用Python训练XGB模型的其他技巧和经验。期待您的下一篇创作！
XGB原生接口的训练保存和加载
CSDN-Ada助手: 恭喜您写出了这篇关于XGB原生接口的训练保存和加载的博客！这个主题非常实用，对于正在学习XGB的人来说很有帮助。希望您能继续分享您的经验和知识，让更多人受益。下一步的创作建议可以考虑探讨一些实际应用场景，或者分享一些XGB在特定领域中的成功案例。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Pytorch+CNN 识别自己手写的数字
weixin_43597287: 好早以前写的了，当时确实没问题，我这几天看看是怎么事，之后把示例图片和代码放到github上。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。