N元语言模型

鹤入云霄

已于 2024-01-07 18:12:38 修改

阅读量1k

点赞数 10

分类专栏：自然语言处理文章标签：自然语言处理

于 2023-11-27 21:26:30 首次发布

本文链接：https://blog.csdn.net/y2770169045/article/details/134655044

版权

自然语言处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

预测句子概率

条件概率计算公式

条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为：P（A|B）。若只有两个事件A，B，则有如下公式：

二元语言模型

二元语言模型也称为一节马尔科夫链，通俗的讲，我们可以认为这是一个词的概率实际上只是跟前边的词有关,那么就可以有以下的方程:

同时为了保证条件概率在 i=1 时有意义，同时为了保证句子内所有字符串的概率和为 1，可以在句子首尾两端增加两个标志: <BOS \W1W2…Wn\ EOS> 为了估计P(WI|WI-1)的条件概率,我们计算出wi-1,wi的词汇出此案的频率然后进行归一化,公式如下:

计算出每个词汇的概率后，便可根据公式求得句子的概率。

import jieba

jieba.setLogLevel(jieba.logging.INFO)

# 将句子变为"BOSxxxxxEOS"这种形式
def reform(sentence):
    if sentence.endswith("。"):
        sentence = sentence[:-1]
    sentence = sentence.replace("。", "EOSBOS")
    sentence = "BOS" + sentence + "EOS"
    return sentence

# 分词并统计词频
def segmentation(sentence, dic):
    jieba.suggest_freq("BOS", True)
    jieba.suggest_freq("EOS", True)  # 让jieba库知道"BOS"和"EOS"这两个词的存在，并记录它们的出现频率
    lists = jieba.lcut(sentence, HMM=False) # 当输入的文本比较短时，隐马尔科夫模型的效果可能会下降，导致分词结果不准确
    if dic is not None:
        for word in lists:
            if word not in dic:
                dic[word] = 1
            else:
                dic[word] += 1
    return lists

# 比较两个数列，二元语法
def compareList(ori_list, tes_list):
    count_list = [0] * len(tes_list)
    for t in range(len(tes_list)-1):
        for n in range(len(ori_list)-1):
            if tes_list[t] == ori_list[n]:
                if tes_list[t+1] == ori_list[n+1]:
                    count_list[t] += 1
    return count_list 
      

# 计算概率       
def probability(tes_list, ori_dic, count_list):
    flag = 0
    p = 1
    del tes_list[-1]
    for key in tes_list:
        p *= float(count_list[flag]) / float(ori_dic[key])
        flag += 1
    return p

if __name__ == "__main__":
    # 语料句子
    sentence_ori = "研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。"
    ori_dict = {}
    
    # 测试句子
    sentence_test = input()
    ori_dict2 = {}

    sentence_ori_temp = reform(sentence_ori)
    ori_list = segmentation(sentence_ori_temp, ori_dict)

    sentence_tes_temp = reform(sentence_test)
    tes_list = segmentation(sentence_tes_temp, None)

    count_list = compareList(ori_list, tes_list)

    p = probability(tes_list, ori_dict, count_list)
    print(p)