HMM->MEMM->CRF以及BiLSTM+CRF中的CRF层

最新推荐文章于 2022-11-08 19:06:51 发布

Zo2

最新推荐文章于 2022-11-08 19:06:51 发布

阅读量659

点赞数 1

分类专栏：算法

本文链接：https://blog.csdn.net/weixin_43914692/article/details/94623483

版权

本文介绍了序列标注问题中的几个关键模型，包括HMM、MEMM和CRF。HMM基于马尔可夫假设，但存在局限性；MEMM作为判别模型，打破了观测独立性假设，但仍存在标注偏置问题。CRF模型通过考虑上下文信息，解决了这个问题，适合用于命名实体识别等任务。BiLSTM-CRF结合了双向LSTM的上下文捕捉能力和CRF的全局优化，提高了序列标注的准确性。

摘要由CSDN通过智能技术生成

参考：
1.B站《机器学习-白板推导系列（十七）》https://www.bilibili.com/video/av34444816/
2.https://zhuanlan.zhihu.com/p/44042528 （中文译版）
https://createmomo.github.io/2017/09/12/CRF_Layer_on_the_Top_of_BiLSTM_1/ （原版）这里只放了第一章的链接
3.https://www.jianshu.com/p/55755fc649b1 （中文译版）
https://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/ （原版）

前言

在做命名实体识别的时候发现现在最流行最稳定的方法也就是使用BiLSTM+CRF模型来实现的了，但是由于CRF公式实在是看起来很劝退，一直也没有搞懂，这两天又看了很多大神写的文章，有了一点理解，但是还不是很透彻，还属于流在表面的理解，不过还是先记录下来把。

分类算法

监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。监督学习方法又可以分为生成方法和判别方法。所学习到的模型分别称为生成模型和判别模型。
生成模型是对联合概率分布进行建模P（X,Y），然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型： $P(Y|X)=\frac{P(X,Y)}{P(X)}$ ，上次写到的朴素贝叶斯法和接下来要写到的隐马尔可夫模型都属于生成模型。
判别模型由数据直接学习条件概率分布P(Y|X)作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y，典型的判别模型包括：k近邻法、感知机、决策树，以及后面要提到的最大熵马尔可夫模型和条件随机场。

HMM

HMM即为隐马尔可夫模型，还记得上次写的朴素贝叶斯模型，他的标签一般情况下是一个0/1值，一般用来进行二分类，比如说对垃圾邮件进行鉴别，其实只要把朴素贝叶斯的二值标签序列化，即每一个输入都会对应一个标签，即序列标注问题，，这个模型就变成了隐马尔可夫模型。在这里插入图片描述
隐马尔可夫模型由三个元素确定，分别是初始状态概率向量 $\pi$ 、状态转移概率矩阵A，和观测概率矩阵B组成。矩阵A决定了模型从一个状态转移到另一个状态，矩阵B从当前状态决定当前的观测值是多少。
状态转移概率矩阵A与初始状态概率向量 $\pi$ 确定了隐藏的马尔科夫链，生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。
隐马尔可夫模型作了两个基本假设：
（1）齐次马尔可夫性假设：隐藏的马尔科夫链在任一时刻t的状态只依赖于前一时刻的状态。即 $P(y_{t}|y_{1:t-1},x_{1:t-1})=P(y_{t}|y_{t-1})$
（2）观测独立性假设：假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。即 $P(x_{t}|y_{1:t},x_{1:t-1})=P(x_{t}|y_{t})$