02自然语言模型NLP

自然语言模型是一门计算机科学、人工智能以及语言学的交叉学科

过去:以语言学为主:建立基本语言规则,使用数学逻辑进行推理,建立模型,产生或者理解语言。
现在:以统计学为主:当数据累计到海量,本身就能折射出规则,孕育出智能。
将来:应该是以深度学习等人工智能的最新技术

1、定义:自然语言模型是一个计算单词序列(句子)的概率模型。

语言模型的质量评估是基于他们对词语概率分布的表征能力。(已有一串词语序列,预测下一个出现的词语是什么)

例如:
我今天要去【上班】
我今天要去【游泳】
我今天要去【爬山】
通过语言模型计算出去【上班】 的概率最大,得出我今天要去爬【上班】

N-Gram

N元模型(考虑到了词与词之间的顺序),也可以说是判断一个句子的合理性
常用的有BiGram和TriGram,相当于一个滑动窗口,用于计算窗口内词(字)顺序的概率
在数据量充足的情况下,n-gram中的 n 越大,模型效果越好,但相应的参数会成指数级的增长,复杂性升高
n-gram对中文分词,中文词性标注有很好的效果
句子的概率通常是通过待预测单词之前长度为n的窗口建立条件概率来进行预测,此处引入马尔科夫假设
在这里插入图片描述
为了估算条件概率,常用极大似然估计
在这里插入图片描述
解释:
bigram是n=2
《s》后面是 I 的概率为0.67,《s》 后面是 Sam 的概率为0.33
得出最大概率为《s》 I
I 后面是 am 的概率为0.67, I 后面是do的概率是0.33
得出最大概率为 I am
。。。
最终的到
《s》 I am Sam《s》

例如 i want to eat chinese food lunch spend
生成一个概率矩阵在这里插入图片描述

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值