以下内容是根据李航《统计学习方法》自己的学习和总结。
先看一个盒子和球的例子:
假设有4个盒子,每个盒子里都装有红、白两种颜色的球,盒子里的红、白球由表中列出。
按照下面的方法抽球,产生一个球的颜色的观测序列:
- 开始,从4个盒子里以等概率随机选取一个盒子,从这个盒子里随机抽出一个球,记录其颜色后,放回;
- 然后,从当前盒子随机转移到下一个盒子,规则是:如果当前盒子是1,那么下一盒子一定是盒子2;如果当前盒子是2或3,那么分别以概率为0.4和0.6转移到左边或右边的盒子;如果当前是盒子4,那么个以0.5的概率停留在盒子4或转移到盒子3;
- 确定转移的盒子后,再从这个盒子里随机抽出1个球,记录其颜色,放回;
- 如此下去,重复进行5次,得到一个球的颜色的观测序列;
O = ( 红 , 红 , 白 , 白 , 红 ) O=(红,红,白,白,红) O=(红,红,白,白,红)
在这个过程中,观察者只能观测到观测球的颜色的序列,观测球是从哪个盒子取出的,即观测不到盒子的序列。
在这个例子中有两个随机序列,一个是盒子的序列(状态序列),一个是球的颜色的观测序列(观测序列)。前者是隐藏的,只有后者是可观测的。这是一个隐马尔可夫模型的例子。根据所给条件,可以明确状态集合、观测集合、序列长度以及模型的三要素。
盒子对应的状态,状态的集合是:
Q
=
{
盒
子
1
,
盒
子
2
,
盒
子
3
,
盒
子
4
}
,
N
=
4
Q=\{盒子1,盒子2,盒子3,盒子4\},N=4
Q={盒子1,盒子2,盒子3,盒子4},N=4
球的颜色对应观测。观测的集合是:
V
=
{
红
,
白
}
,
M
=
2
V=\{红,白\},M=2
V={红,白},M=2
转态序列和观测序列长度T=5。
初始概率分布为
π
=
(
0.25
,
0.25
,
0.25
,
0.25
)
T
π=(0.25,0.25,0.25,0.25)^T
π=(0.25,0.25,0.25,0.25)T
状态转移概率分布为
A
=
[
0
1
0
0
0.4
0
0.6
0
0
0.4
0
0.6
0
0
0.5
0.5
]
A= \left[ \begin{array}{cccc} 0&1&0&0\\ 0.4&0&0.6&0\\ 0&0.4&0&0.6\\ 0&0&0.5&0.5\\ \end{array} \right]
A=⎣⎢⎢⎡00.400100.4000.600.5000.60.5⎦⎥⎥⎤
观测概率分布为
B
=
[
0.5
0.5
0.3
0.7
0.6
0.4
0.8
0.2
]
B=\left[ \begin{array}{cc} 0.5&0.5\\ 0.3&0.7\\ 0.6&0.4\\ 0.8&0.2\\ \end{array} \right]
B=⎣⎢⎢⎡0.50.30.60.80.50.70.40.2⎦⎥⎥⎤