第十一章条件随机场

最新推荐文章于 2020-02-10 18:39:57 发布

winds_lyh

最新推荐文章于 2020-02-10 18:39:57 发布

阅读量200

点赞数

分类专栏：统计学习理论文章标签：统计学习

本文链接：https://blog.csdn.net/winds_lyh/article/details/80826570

版权

统计学习理论专栏收录该内容

10 篇文章 0 订阅

订阅专栏

条件随机场（CRF）是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场。
定义1.1 （条件随机场）设 $X$ 与 $Y$ 是随机变量， $P(Y|X)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个由无向图 $G=(V,E)$ 表示的马尔科夫随机场，即

P (Y v | X, Y w, w \neq v) = P (Y v | X, Y w, w \sim v) (1)

$P(Y_v|X,Y_w,w \ne v)=P(Y_v|X,Y_w,w \sim v) \tag{1}$ 对任意结点

v v $v$ 成立，则称条件概率分布

P (Y | X)

$P(Y|X)$ 为条件随机场。式中

w∼v w ∼ v $w \sim v$ 表示在图

G=(V,E) G = ( V , E ) $G=(V,E)$ 中与结点

v v $v$ 有边连接的所有结点

w

$w$ ，

w≠v w ≠ v $w \ne v$ 表示结点

v v $v$ 以外的所有结点，

Y_{v}

$Y_v$ ,

Yu Y u $Y_u$ ,

Yw Y w $Y_w$ 为节点

v,u,w v , u , w $v,u,w$ 对应的随机变量。
定义1.2 （线性链条件随机场）设

X=(X1,X2,...,Xn) X = ( X 1 , X 2 , . . . , X n ) $X=(X_1,X_2,...,X_n)$ ,

Y=(Y1,Y2,...,Yn) Y = ( Y 1 , Y 2 , . . . , Y n ) $Y=(Y_1,Y_2,...,Y_n)$ 均为线性链表示的随机变量序列，若在给定的随机变量序列

X X $X$ 的条件下，随机变量序列

Y

$Y$ 的条件概率分布

P(Y|X) P ( Y | X ) $P(Y|X)$ 构成条件随机场，即满足马尔科夫性

P (Y i | X, Y 1, . . ., Y i - 1, Y i + 1, . . ., Y n) = P (Y i | X, Y i - 1, Y i + 1)

$P(Y_i|X,Y_1,...,Y_{i-1},Y_{i+1},...,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$

i = 1, 2, . . ., n (在 i = 1 和 n 时 只 考 虑 单 边)

$i=1,2,...,n(在i=1和n时只考虑单边)$ 则称

P(Y|X) P ( Y | X ) $P(Y|X)$ 为线性链条件随机场。在标注问题中，

X X $X$ 表示输入观测序列，

Y

$Y$ 表示对于的输出序列或状态序列。
定理1.1（线性链条件随机场的参数化形式）设

P(Y|X) P ( Y | X ) $P(Y|X)$ 为线性链条件随机场，则在随机变量

X X $X$ 取值为

x

$x$ 的条件下，随机变量

Y Y $Y$ 取值为

y

$y$ 的条件概率具有如下形式：

P (y | x) = 1 Z ( x ) e x p (\sum i, k λ k t k (y i - 1, y i, x, i) + \sum i, l μ l s l (y i, x, i))

$P(y|x)=\frac{1}{Z(x)}exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)$ 其中，

Z (x) = \sum y exp (\sum i, k λ k t k (y i - 1, y i, x, i) + \sum i, l μ l s l (y i, x, i))

$Z(x)=\sum_y\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)$ 式中，

tk t k $t_k$ 和

sl s l $s_l$ 是特征函数，

λk λ k $\lambda_k$ 和

μl μ l $\mu_l$ 是对应的权值。

Z(x) Z ( x ) $Z(x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。

条件随机场的学习算法

算法1.1（条件随机场模型学习的改进的迭代尺度法）
输入：特征函数 $t_1,t_2,...,t_{K_1}$ , $s_1,s_2,...,s_{K_2}$ ;经验分布 $\tilde P(x,y)$ ;
输出：参数估计值 $\hat w$ ;模型 $P_{\hat w}$ .
（1）对所有 $k \in \{1,2,...,K\}$ ，取初值 $w_k = 0$
（2）对每一 $k \in \{1,2,...,K\}$ ：
（a）当 $k=1,2,...,K_1$ 时，令 $\delta_{{K_1}+l}$ 是方程