hmm在中文分词的训练算法

HMM: (例如:在分词上的应用:观测x为单词,状态y为词性)

1.HMM存在两个假设:

1)当前的状态yt只依赖于前一个状态yt-1

2)任意时刻的观测xt只依赖于该时刻的状态yt

2.利用三个要素来模拟时序序列的发生过程:初始状态向量π、状态转移概率矩阵A、观测概率矩阵B。

   1)初始状态向量π:即统计每一句话的第一个字的状态频次比上这个字为其他所有状态(即y1的所有取值)之和。

   2)状态转移概率矩阵A:即从状态si到sj的转移频次比上状态为si转为其他所有状态的频次之和。

   3)观测概率矩阵B:即状态为si且观测为xj的频次比上状态为si时到其他所有观测x的频次之和。

 

3.三个基本用法:

   1)样本生成问题:给定(π,A,B)生成满足约束的样本{x(i),y(i)}

   2)模型训练问题:给定{x(i),y(i)},估计模型参数(π,A,B)

   3)序列预测问题:给定(π,A,B)和观测序列x,求最可能的状态序列y

4.先根据语料库训练出来模型参数,接下来可以根据模型参数来解决序列预测问题,分词时可以用到维特比算法:即求得概率最大的状态序列,其核心思想是如果最终的最优路径经过某个节点oi,那么从初始节点到oi-1点的路径必然也是一个最优路径。

  

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值