学习笔记——条件随机场（基于自然语言和机器学习理解）

最新推荐文章于 2023-06-06 23:17:25 发布

小樊努力努力再努力

最新推荐文章于 2023-06-06 23:17:25 发布

阅读量1.2k

点赞数 2

文章标签： python 自然语言处理机器学习

本文链接：https://blog.csdn.net/weixin_51130521/article/details/119117061

版权

1 条件随机场（Condition Random Fields），简称CRFs

三，基于机器学习理解条件随机场（可以看作给定观察值的马尔科随机场）

2 链式条件随机场

3 参考文献

4 自然语言相关系列文章

一，条件随机场介绍

理解条件随机场最好的办法就是用一个现实的例子来说明它。
原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]（英文的）

假设你有许多小明同学一天内不同时段的照片，从小明提裤子起床到脱裤子睡觉各个时间段都有（小明是照片控！）。现在的任务是对这些照片进行分类。比如有的照片是吃饭，那就给它打上吃饭的标签；有的照片是跑步时拍的，那就打上跑步的标签；有的照片是开会时拍的，那就打上开会的标签。问题来了，你准备怎么干？
一个简单直观的办法就是，不管这些照片之间的时间顺序，想办法训练出一个多元分类器。就是用一些打好标签的照片作为训练数据，训练出一个模型，直接根据照片的特征来分类。例如，如果照片是早上6:00拍的，且画面是黑暗的，那就给它打上睡觉的标签;如果照片上有车，那就给它打上开车的标签。
这样可行吗？
乍一看可以！但实际上，由于我们忽略了这些照片之间的时间顺序这一重要信息，我们的分类器会有缺陷的。举个例子，假如有一张小明闭着嘴的照片，怎么分类？显然难以直接判断，需要参考闭嘴之前的照片，如果之前的照片显示小明在吃饭，那这个闭嘴的照片很可能是小明在咀嚼食物准备下咽，可以给它打上吃饭的标签；如果之前的照片显示小明在唱歌，那这个闭嘴的照片很可能是小明唱歌瞬间的抓拍，可以给它打上唱歌的标签。
所以，为了让我们的分类器能够有更好的表现，在为一张照片分类时，我们必须将与它相邻的照片的标签信息考虑进来。这——就是条件随机场(CRF)大显身手的地方！

1.1啥是词性标注问题？

非常简单的，就是给一个句子中的每个单词注明词性。比如这句话：“Bob drank coffee at Starbucks”，注明每个单词的词性后是这样的：“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。
下面，就用条件随机场来解决这个问题。
以上面的话为例，有5个单词，我们将：(名词，动词，名词，介词，名词)作为一个标注序列，称为l，可选的标注序列有很多种，比如l还可以是这样：（名词，动词，动词，介词，名词），我们要在这么多的可选标注序列中，挑选出一个最靠谱的作为我们对这句话的标注。
怎么判断一个标注序列靠谱不靠谱呢？
就我们上面展示的两个标注序列来说，第二个显然不如第一个靠谱，因为它把第二、第三个单词都标注成了动词，动词后面接动词，这在一个句子中通常是说不通的。
假如我们给每一个标注序列打分，打分越高代表这个标注序列越靠谱，我们至少可以说，凡是标注中出现了动词后面还是动词的标注序列，要给它负分！！
上面所说的动词后面还是动词就是一个特征函数，我们可以定义一个特征函数集合，用这个特征函数集合来为一个标注序列打分，并据此选出最靠谱的标注序列。也就是说，每一个特征函数都可以用来为一个标注序列评分，把集合中所有特征函数对同一个标注序列的评分综合起来，就是这个标注序列最终的评分值

1.2 机器学习中的生产模型与判别模型

有监督机器学习方法可以分为生成方法和判别方法：

1）生产式模型：直接对联合分布进行建模，如：混合高斯模型、隐马尔科夫模型、马尔科夫随机场等

2）判别式模型：对条件分布进行建模，如：条件随机场、支持向量机、逻辑回归等。

生成模型优缺点介绍：
优点：

1）生成给出的是联合分布，不仅能够由联合分布计算条件分布（反之则不行），还可以给出其他信息。如果一个输入样本的边缘分布很小的话，那么可以认为学习出的这个模型可能不太适合对这个样本进行分类，分类效果可能会不好。

2）生成模型收敛速度比较快，即当样本数量较多时，生成模型能更快地收敛于真实模型。
3）生成模型能够应付存在隐变量的情况，比如混合高斯模型就是含有隐变量的生成方法。
缺点：
1）天下没有免费午餐，联合分布是能提供更多的信息，但也需要更多的样本和更多计算，尤其是为了更准确估计类别条件分布，需要增加样本的数目，而且类别条件概率的许多信息是我们做分类用不到，因而如果我们只需要做分类任务，就浪费了计算资源。
2）另外，实践中多数情况下判别模型效果更好。
判别模型优缺点介绍：
优点：
1）与生成模型缺点对应，首先是节省计算资源，另外，需要的样本数量也少于生成模型。
2）准确率往往较生成模型高。
3）由于直接学习，而不需要求解类别条件概率，所以允许我们对输入进行抽象（比如降维、构造等），从而能够简化学习问题。
缺点：
1）是没有生成模型的上述优点。

---------------------------------------------------------------------------------------------------------------------------------

二，基于自然语言处理理解

1 条件随机场（Condition Random Fields），简称CRFs

条件随机场概念：条件随机场就是对给定的输出标识序列Y和观察序列X，条件随机场通过定义条件概率P(X|Y)，而不是联合概率分布P(X,Y)来描述模型。

概念解析：

标注一篇文章中的句子，即语句标注，使用标注方法BIO标注，B代表句子的开始，I代表句子中间，O代表句子结束。则观察序列X就是一个语料库（此处假设一篇文章，x代表文章中的每一句，X是x的集合），标识序列Y是BIO，即对应X序列的识别，从而可以根据条件概率P(标注|句子)，推测出正确的句子标注，显然，这里针对的是序列状态，即CRF是用来标注或划分序列结构数据的概率化结构模型，其在自然语言处理和图像处理领域得到广泛的应用，CRF可以看作无向图模型或者马尔科夫随机场。

2 条件随机场的形式化表示

设G=(V,E)为一个无向图，V为结点的集合，E为无向边的集合，，即V中的每个结点对应一个随机变量Yv，其取值范围为可能的标记集合{Y}.如果观察序列X为条件，每一个随机变量都满足以下马尔科夫特性:，其中，w – v表示两个结点在图G中是邻近结点，那么，（X,Y）为条件随机变量。

以语句识别的案例理解条件随机场的形式化表示。

G=（V,E表示识别语句：【我爱中国】的标注是一个无向图，X我观察序列，Y为标注序列，V是每个标注状态的结点，E的无向边，边上的权值为概率值。表示每个X的Y的标注，如:X1:我，y1：O，y2：I，y3：B；取值范围，而中w—v表示我与爱是相邻的结点，这样的（X,Y）为一个条件随机场，真正的标注再采用Viterbi算法，如：

寻求最大概率即，记录下我的标注路径，同理可知：

如上便是对条件随机场与Viterbi算法的综合运用，其中Viterbi标注问题本质是隐马尔科夫模型三大问题之解码问题算法模型，具体参考（揭秘马尔科夫模型系列文章）

3 深度理解条件随机场

理论上标记序列描述一定条件的独立性，G图结构任意的，对序列进行建模可形成最简单，最普通的链式结构图，结点对应标记序列X中元素，CRF链式图如下：

如上图两种表示是一致的，其中图链式句子标注是图链式2的实例化，读者可能问为什么上面图是这种而不是广义的图，这是因为观察序列X的元素之间并不存在图结构，没有做独立性假设，这点也非常容易理解，诸如图中，我爱中国，其中b表示反射概率而t是转移概率，线上的数值表示权值即概率值。如图3，我的发射概率0.7，我到爱的转移概率0.5，通俗讲，我和爱两个字是有关联的，并非独立的。