朴素贝叶斯法实现拼写检查器

转 https://blog.csdn.net/wenyichuan/article/details/78572007 

import re, collections
 
#我们利用一个叫 words 的函数把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号
# 单词就会成为字母序列, don't 就变成 don 和 t 了,为了简化操作我们就忽略这个细节
def words(text): return re.findall('[a-z]+', text.lower())
 
def train(features):
    #defaultdict类的初始化函数接受一个类型作为参数,当所访问的键不存在的时候,可以实例化一个值作为默认值,及所有键的初始值都为1
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
#NWORDS为一个字典 {单词:次数}
NWORDS = train(words(open('big.txt').read()))
 
#字母表 用于编辑距离函数的插入
alphabet = 'abcdefghijklmnopqrstuvwxyz'
#返回所有与单词 w 编辑距离为 1 的集合
def edits1(word):
    n = len(word)
    return set([word[0:i] + word[i + 1:] for i in range(n)] +                             # 减少一个字母
               [word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] +  # 调换相邻间两个字母顺序,ps:人们应该不会将距离远的俩字母写反!
               [word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] +       # 替换一个字母
               [word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet])        # 插入一个字母
 
#返回所有与单词 w 编辑距离为 2 的集合
#在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词
def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
 
#返回在字典中可以找到的编辑单词
def known(words): return set(w for w in words if w in NWORDS)
 
def correct(word):
    # 为了简便我们采用python的短路表达式,如果known(set)非空, candidate 就会选取这个集合,
    #  而不会再继续计算后面的,当然我们也可以将代码写成if-else形式
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=lambda w: NWORDS[w])
 
if __name__ == '__main__':
    print(correct('somethin'))

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值