EM
琴生不等式
Jensen Inequality
参考下图黑洞传送门
MLE最大似然估计
- 一个数据集出现了,我们就最大化这个数据集的似然概率。
- 数据集中每个点都是独立出现的,因此可以概率连乘。
- 求得使得似然概率最大(当前数据集出现的估计概率)的参数。
MLE的对数累加形式
- log是凹函数,因此
l o g ( E ( x ) ) ≥ E ( l o g ( x ) ) log(E(x)) \ge E(log(x)) log(E(x))≥E(log(x))- 简便记忆法,
log(累加)>=累加log
- 等号成立: 随机变量是常数
- 简便记忆法,
-
最大化下界
-
EM 步骤
无监督的降维:PCA
数据矩阵中心化
投影
到例如某几个轴上, w 1 , w 2 , w 3 . . . . . . . w i w_1,w_2, w_3.......w_i w1,w2,w3.......wi
- 如何投影?
w k T x i w_k^Tx_i wkTxi
- 使得
方差
最大
化: 一般信息方差大于噪声!
1 n ∑ i = 1 N ∣ ∣ w i T x i ∣ ∣ 2 \frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2 n1i=1∑N∣∣wiTxi∣∣2
m a x 1 n ∑ i = 1 N w k T x i x i T w k max \quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k maxn1i=1∑NwkTxixiTwk
假设 X = [ x 1 x 2 x 3 . . . . . x n ] X=[x_1 \quad x_2 \quad x_3.....x_n] X=[x1x2x3.....xn],其中 x i x_i xi是 M × 1 M \times 1 M×1维数据向量
m a x 1 n w k T X X T w k s . t . ∣ ∣ w k ∣ ∣ = 1 max \quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1 maxn1wkTXXTwks.t.∣∣wk∣∣=1
对称矩阵,必定半正定,上式存在最大值
reference
拉格朗日来了
:
m
a
x
w
k
T
X
X
T
w
k
s
.
t
.
∣
∣
w
k
∣
∣
=
1
max \quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1
maxwkTXXTwks.t.∣∣wk∣∣=1
==>
L
(
w
k
)
=
w
k
T
X
X
T
w
k
+
λ
(
1
−
w
k
T
w
k
)
L (w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k)
L(wk)=wkTXXTwk+λ(1−wkTwk)
求导=0
∂
L
(
w
k
)
∂
w
k
=
2
X
X
T
w
k
−
2
λ
w
k
=
0
\frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0
∂wk∂L(wk)=2XXTwk−2λwk=0
∂
2
L
(
w
k
)
∂
w
k
2
=
2
X
T
X
−
2
λ
≤
0
\frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0
∂wk2∂2L(wk)=2XTX−2λ≤0
发现:
X
X
T
w
k
=
λ
w
k
XX^Tw_k= \lambda w_k
XXTwk=λwk
结论
:
往特征值最大的轴上投影最佳
有监督的降维:LDA
投影后
,不同类之间,类中心
相互离得越远越好。Between Class Seaparability投影后
,类内方差越小越好,所有的方差之和
越小越好. Within Variance- 两类的LDA:
min J ( w ) = min ( m 2 − m 1 ) 2 s 1 2 + s 2 2 \min \space J(w) = \min \frac {(m_2-m_1)^2}{s_1^2+s_2^2} min J(w)=mins12+s22(m2−m1)2
Ensemble Learning
- RF随机森林:Boostrapping自助法/bagging
- 分类:投票 / 回归:平均
- 有放回地抽样样本,当做森林里某颗树的数据集
- 对这颗树,每次随机抽取d个特征作为特征集合,按照决策树增益标准分支。
- 自由生长,不要停止或者限制
- 随机森林创造者本人的主页
- 误差与树之间的correlation有关,大的correlation导致大的误差
- 个体树效果越好的话,整体误差会低,整体strength大
- 并行
- AdaBoost
- 串行 boosting
- 代价函数是指数函数.
L i = exp ( − y i H ( x ) ) L_i= \exp(-y_iH(x)) Li=exp(−yiH(x)) - 子分类器的权重由错误率得出
- 加大错误分类的权重,减小分对的样本权重
- Dropout
- 一般见于神经网络,防止过拟合
- 机制只工作在训练中,前向传播和后向传播中, p表示正常运作的概率,通过多重伯努利分布选择。
- “集成”学习
- Dropout论文