序列标注
-
序列标注任务概述
序列标注方法:将输入的语言序列转化为标注序列,通过标注序列标签含义来解决问题
主要问题:命名实体识别、信息抽取、词性序列标注 -
马尔可夫模型HHM(概率模型)
如果系统在 t 时间的状态 qt 只与其在时间t-1的状态相关则系统构成离散的一阶马尔科夫链(马尔可夫过程)
-
隐马尔可夫模型HHM(概率模型)
HMM五元组:
-
隐藏状态s:一个系统的真实状态,可由一个马尔可夫过程进行描述
-
观察状态o:在这个过程中可视的状态
-
状态转移概率矩阵A:包含了一个隐藏状态到另一个隐藏状态的概率
-
观察概率矩阵B:从隐藏状态 S j S_j Sj观察到某一特定符号 V k V_k Vk的概率分布概率
-
初始状态的概率分布: π \pi π
-
HMM评估问题
-
定义 P ( O ∣ λ ) P(O|\lambda) P(O∣λ)
-
计算 P ( O ∣ λ ) P(O|\lambda) P(O∣λ)
-
穷举法 时间复杂度 O ( N T ) O(N^T) O(NT)
-
前向算法/后向算法
时间复杂度 O ( N 2 T ) O(N^2T) O(N2T)
-
-
HMM解码问题
- 穷举法:找到每一种可能产生观察序列的状态序列,计算每种可能情况下观察序列的概率,概率最大的状态序列就是要找的状态序列
- Viterbi搜索算法:利用动态规划使用递归来降低计算复杂度
-
HMM参数学习
- 产生观察序列O的隐藏状态已知,可以采用有监督的学习方法,用最大似然估计计算参数
- 产生观察序列O的隐藏状态未知,可以采用无监督EM学习方法
-
应用
- 分词:
- HMM评估:当分词出现多种可能时,求观察序列的概率,结果取概率最大的序列;
- 解码问题:用序列标注直接进行分词
- 词性标注
- 短语识别、语音识别
- 分词:
-
-
神经网络序列标注模型
存在问题:输出之间相互独立,可能出现BB情况
改进思路:建立输出之间的关系——CRF模型(设置一组参数A学习标签之间的状态转移概率)