一个非常简单的拼写纠错的核心代码(不考虑语法问题)

大概就是一个很简单的拼写纠错(没考虑语法问题)的核心代码,其中很多细节也有待完善,目前根据所学大概能写出这么一个样子,特别是找候选集合扩大编辑距离那还存在速度太慢的问题,希望各位大佬指正。

import numpy as np
from nltk.corpus import reuters
#加载词典库
vocab = set([line.rstrip() for line in open('vocab.txt')])
#读取语料库
categories = reuters.categories()
corpus = reuters.sents(categories = categories)
#生成所有的候选集合
def generate_candiated(word):
    """
    给定的输入(错误的输入)
    返回所有(valid)候选集合
    """
    #生成编辑距离为1的单词
    letters = 'abcdefghijklmnopqrstuvwxyz'
    splits = [(word[:i],word[i:])for i in range(len(word)+1)]
    #insert操作
    inserts = [L+c+R for L,R in splits for c in letters]
    #delect操作
    delects = [L+R[1:] for L,R in splits if R]
    #replace操作
    replaces = [L+c+R[1:]for L,R in splits for c in letters]
    candiates = set(inserts+delects+replaces)
    return [word for word in candiates if word in vocab],candiates

# 构建语言模型
def generate_LM():
    term_count = {}
    bigram_count = {}
    for doc in corpus:
        doc = ['<s>'] + doc
        for i in range(0, len(doc) - 1):
            term = doc[i]
            bigram = doc[i:i + 2]

            if term in term_count:
                term_count[term] += 1
            else:
                term_count[term] = 1
            bigram = ' '.join(bigram)
            if bigram in bigram_count:
                bigram_count[bigram] += 1
            else:
                bigram_count[bigram] = 1
    return term_count,bigram_count

#用户打错的概率统计
def mis_probs():
    channel_prob = {}
    for line in open('spell-errors.txt'):
        items = line.split(':')
        correct = items[0].strip()
        mistakes = [item.strip() for item in items[1].strip().split(",")]
        channel_prob[correct] = {}
        for mis in mistakes:
            channel_prob[correct][mis] = 1.0 / len(mistakes)
    return channel_prob


def main():
    #生成语言模型
    term_count,bigram_count = generate_LM()
    #生成每个词拼写错误的概率
    channel_prob = mis_probs()
    V = len(term_count.keys())
    file = open('testdata.txt')
    for line in file:
        items = line.rstrip().split('\t')
        line = items[2].strip('.').split()
        # line = ['I','like','you']
        for word in line:
            if word not in vocab:
                # 需要将word替换成正确的单词
                # 先找出这个正确单词的候选集合
                candiates, temp_candi = generate_candiated(word)
                # 一种方式:if candiates=[],那就多生成几个candiates,比如生成编辑距离为更大的
                while len(candiates) < 1:
                    for words in temp_candi:
                        candidate, temp = generate_candiated(words.rstrip('\n'))
                        if len(candidate) > 0:
                            candiates += candidate
                            if len(candiates) > 0:
                                break
                """
                对于每一个candiates,计算机它的score
                score = log(correct) + log(mistakes|correct)
                返回score最大概率的candiates
                """
                probs = []
                for candi in candiates:
                    prob = 0
                    # a.计算channel_probabitity
                    if candi in channel_prob and word in channel_prob[candi]:
                        prob += np.log(channel_prob[candi][word])
                    else:
                        prob += np.log(0.0001)
                    # b.计算语言模型概率
                    idx = line.index(word) + 1
                    s=[]
                    s.append(line[idx-2])
                    s.append(candi)
                    s = ' '.join(s)
                    if s in bigram_count and candi in term_count:
                        prob += (np.log(bigram_count[s])+1) / (np.log(term_count[candi])+V)
                    else:

                        prob += np.log(1.0 / V)
                    probs.append(prob)
                max_idx = probs.index(max(probs))
                print(word, candiates[max_idx])
if __name__ == '__main__':
    main()
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要构建一个拼写纠错系统,可以使用Python自然语言处理工具包NLTK。下面是一个基本的拼写纠错系统的实现步骤: 1.准备语料库:可以使用NLTK中的一些现成的语料库,也可以自己收集一些语料库。 2.预处理文本:对文本进行分词、词形还原、去除停用词等操作。 3.建立词典:将文本中出现的单词存储到一个词典中。 4.编辑距离算法:使用编辑距离算法计算输入单词与词典中的单词之间的距离。 5.选取候选单词:选择与输入单词距离最小的一些候选单词。 6.排序:对候选单词按照一定的规则进行排序,如出现频率、编辑距离等。 7.输出:输出排名最高的一个或几个单词作为纠错结果。 下面是一个简单的代码示例: ```python import nltk from nltk.corpus import brown from nltk.util import ngrams from nltk.metrics.distance import edit_distance # 准备语料库 corpus = brown.words() # 建立词典 word_dict = set(corpus) # 编辑距离算法 def get_candidates(word, max_distance=1): candidates = set() for w in word_dict: if abs(len(word) - len(w)) > max_distance: continue if edit_distance(word, w) <= max_distance: candidates.add(w) return candidates # 排序 def get_top_n_words(word, n=5): candidates = get_candidates(word) distances = [(w, edit_distance(word, w)) for w in candidates] distances.sort(key=lambda x: x[1]) return [w[0] for w in distances[:n]] # 测试 word = 'speling' print(get_top_n_words(word)) ``` 输出结果为:['spelling', 'peeling', 'spewing', 'spiling', 'speeling'],表示输入单词'speling'的纠错结果为'spelling'。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值