EM和PCA和LDA和Ensemble Learning

最新推荐文章于 2021-03-20 23:27:16 发布

万物琴弦光锥之外

最新推荐文章于 2021-03-20 23:27:16 发布

阅读量465

点赞数 1

分类专栏：机器学习文章标签： pca降维机器学习

本文链接：https://blog.csdn.net/weixin_43702920/article/details/107693671

版权

机器学习专栏收录该内容

60 篇文章 3 订阅

订阅专栏

EM

琴生不等式Jensen Inequality

参考下图黑洞传送门
在这里插入图片描述

MLE最大似然估计

一个数据集出现了，我们就最大化这个数据集的似然概率。
数据集中每个点都是独立出现的，因此可以概率连乘。
求得使得似然概率最大（当前数据集出现的估计概率）的参数。

MLE的对数累加形式

log是凹函数，因此
$\ge E(log(x))$
1. 简便记忆法，log(累加)>=累加log
2. 等号成立: 随机变量是常数

在这里插入图片描述

最大化下界
EM 步骤

无监督的降维：PCA

数据矩阵中心化
投影到例如某几个轴上， $w_1,w_2, w_3.......w_i$

如何投影？
$w_k^Tx_i$

使得方差 最大化：一般信息方差大于噪声！
$\frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2$
$\quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k$
假设 $X=[x_1 \quad x_2 \quad x_3.....x_n]$ ，其中 $x_i$ 是 $\times 1$ 维数据向量
$\quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1$
对称矩阵，必定半正定，上式存在最大值
reference

拉格朗日来了：
$\quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1$
==>
$(w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k)$
求导=0
$\frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0$
$\frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0$
在这里插入图片描述

发现：
$XX^Tw_k= \lambda w_k$
结论:
往特征值最大的轴上投影最佳

有监督的降维：LDA

投影后，不同类之间，类中心相互离得越远越好。Between Class Seaparability
投影后，类内方差越小越好，所有的方差之和越小越好. Within Variance
两类的LDA：
$\min \space J(w) = \min \frac {(m_2-m_1)^2}{s_1^２+s_2^2}$

Ensemble Learning

RF随机森林：Boostrapping自助法/bagging

分类：投票 / 回归：平均
有放回地抽样样本，当做森林里某颗树的数据集
对这颗树，每次随机抽取d个特征作为特征集合，按照决策树增益标准分支。
自由生长，不要停止或者限制
随机森林创造者本人的主页
误差与树之间的correlation有关，大的correlation导致大的误差
个体树效果越好的话，整体误差会低，整体strength大
并行

AdaBoost

串行 boosting
代价函数是指数函数.
$L_i= \exp(-y_iH(x))$
子分类器的权重由错误率得出
加大错误分类的权重，减小分对的样本权重

在这里插入图片描述

图的reference

Dropout

一般见于神经网络，防止过拟合
机制只工作在训练中，前向传播和后向传播中， p表示正常运作的概率，通过多重伯努利分布选择。
“集成”学习
Dropout论文

万物琴弦光锥之外

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
EM和PCA和LDA和Ensemble Learning

EM琴生不等式Jensen Inequality参考下图黑洞传送门MLE最大似然估计一个数据集出现了，我们就最大化这个数据集的似然概率。数据集中每个点都是独立出现的，因此可以概率连乘。求得使得似然概率最大（当前数据集出现的估计概率）的参数。MLE的对数累加形式 log是凹函数，因此log(E(x))≥E(log(x)) log(E(x)) \ge E(log(x)) log(E(x))≥E(log(x)) 简便记忆法，`log(累加)&
复制链接

扫一扫