预测句子概率
条件概率计算公式
条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B)。若只有两个事件A,B,则有如下公式:
二元语言模型
二元语言模型也称为一节马尔科夫链,通俗的讲,我们可以认为这是一个词的概率实际上只是跟前边的词有关,那么就可以有以下的方程:
同时为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,可以在句子首尾两端增加两个标志: <BOS \W1W2…Wn\ EOS> 为了估计P(WI|WI-1)的条件概率,我们计算出wi-1,wi的词汇出此案的频率然后进行归一化,公式如下:
计算出每个词汇的概率后,便可根据公式求得句子的概率。
import jieba
jieba.setLogLevel(jieba.logging.INFO)
# 将句子变为"BOSxxxxxEOS"这种形式
def reform(sentence):
if sentence.endswith("。"):
sentence = sentence[:-1]
sentence = sentence.replace("。", "EOSBOS")
sentence = "BOS" + sentence + "EOS"
return sentence
# 分词并统计词频
def segmentation(sentence, dic):
jieba.suggest_freq("BOS", True)
jieba.suggest_freq("EOS", True) # 让jieba库知道"BOS"和"EOS"这两个词的存在,并记录它们的出现频率
lists = jieba.lcut(sentence, HMM=False) # 当输入的文本比较短时,隐马尔科夫模型的效果可能会下降,导致分词结果不准确
if dic is not None:
for word in lists:
if word not in dic:
dic[word] = 1
else:
dic[word] += 1
return lists
# 比较两个数列,二元语法
def compareList(ori_list, tes_list):
count_list = [0] * len(tes_list)
for t in range(len(tes_list)-1):
for n in range(len(ori_list)-1):
if tes_list[t] == ori_list[n]:
if tes_list[t+1] == ori_list[n+1]:
count_list[t] += 1
return count_list
# 计算概率
def probability(tes_list, ori_dic, count_list):
flag = 0
p = 1
del tes_list[-1]
for key in tes_list:
p *= float(count_list[flag]) / float(ori_dic[key])
flag += 1
return p
if __name__ == "__main__":
# 语料句子
sentence_ori = "研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。"
ori_dict = {}
# 测试句子
sentence_test = input()
ori_dict2 = {}
sentence_ori_temp = reform(sentence_ori)
ori_list = segmentation(sentence_ori_temp, ori_dict)
sentence_tes_temp = reform(sentence_test)
tes_list = segmentation(sentence_tes_temp, None)
count_list = compareList(ori_list, tes_list)
p = probability(tes_list, ori_dict, count_list)
print(p)