基于HMM+维特比算法的词性标注解读,可以看我的这篇原创博文
条件随机场的解读
词性标注任务
首先理解条件随机场:
条件随机场:Conditional Random Fields
定义一组特征函数
对于一个标注好的序列,给它打分:
对于一个特征函数,计算这个序列的所有位置的该特征函数值,求和;作为该标注好的序列在第j个特征函数上的得分fun[j]
对于所有的特征函数,加权求和,第j个特征函数的权重w[j]*得分fun[j],和作为该序列的得分
将求和的值转化为概率值,就是这个标注好的序列是正确的概率p
马尔可夫过程:
在特定条件下,系统在时间t的状态只与其在时间t-1的状态相关 。这一随机过程称为马尔可夫过程
#定义CRF中的特征函数
现在,我们正式地定义一下什么是CRF中的特征函数,所谓特征函数,就是这样的函数,
它接受四个参数:
- 句子s(就是我们要标注词性的句子)
- i,用来表示句子s中第i个单词
- l_i