李宏毅2020机器学习【学习笔记】 P56 Unsupervised Learning:Linear Model

_bh

已于 2023-09-29 23:10:37 修改

阅读量662

点赞数 4

分类专栏：机器学习【学习笔记】文章标签：机器学习学习笔记

于 2023-09-19 16:55:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51330846/article/details/132947759

版权

机器学习【学习笔记】专栏收录该内容

14 篇文章 1 订阅

订阅专栏

目录

Unsupervised Learning 还可以做这些事

Clustering 聚类

HAC 层次聚类法

小插曲： Distributed Representation

所以，其实 Distributed Representation 和 Dimension Reduction 是同一件事情。

其意义可视化（图中彩色点是样本点）

怎么做呢？两种方法

Principle component analysis PCA 主特征提取

从另一种角度来看 PCA

Weakness of PCA

What happen to PCA?

所以，我们有了 NMF

Matrix Factorization 矩阵因子分解

感谢B站up主搬运的课程：

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?share_source=copy_web&vd_source=262e561fe1b31fc2fea4d09d310b466d

Unsupervised Learning 还可以做这些事

Clustering & Dimension Reduction 化繁为简
Generation 无中生有

Clustering 聚类

K-means 方法

HAC 层次聚类法

小插曲： Distributed Representation

Clustering 的思想过于绝对，一个物体就对应一个类，实际上一个物体应该由不同的特点来描述，就如下图中“小杰”拥有0.7的强化系特质，拥有0.25的放出系特质……用这样六个维度来表示。

对于图片这样一个非常高维的东西来说，我们如果也能这样做，就把非常高维的东西降到了低维空间中。

所以，其实 Distributed Representation 和 Dimension Reduction 是同一件事情。

其意义可视化（图中彩色点是样本点）

【我完全可以用一个二维空间去描述一个三维空间中的卷起来的面，只要我选取卷起来的边为特征轴】

其实就是取一个方向向量，然后把那些向量都映射到那个方向上去，达到降维的目的。

怎么做呢？两种方法

一种就是像上文所说的，自行选取新的特征边；

另一种呢，就是 PCA 了

Principle component analysis PCA 主特征提取

$z=Wx$

注意我们要取的方向应使得 $z$ 的方差最大，方差越大点与点分的越开，尽可能地保留了各点间的歧义度。

注意取的 $w_1$ 有条件 $||w_1||_2 = 1$ （2-norm 2-范数)

具体参考线性代数-范数(2) 向量范数 - 知乎 (zhihu.com)

所以我们现在要做的事情就是 Maximize 这个方差

即在各种取法下，新的维度分布方差，求那种让他最大的取法。

在找一条新的维度时

我们依然想让他方差最大，但不能找出来还是 $z_1$ ，所以加上限制条件 $w_1 \cdot w_2 = 0$

最终将 $w_1,w_2$ ……放在一起组成 $W$ 矩阵

中间讲了一大堆数学，没有听懂……

讲了怎么找符合条件的 $w_1$ 、 $w_2$ ，结论如下

【 $w_1$ 是 $x$ 协方差矩阵 $S$ 最大的本征值 $\lambda_1$ 对应的本征向量】

【 $w_1$ 是 $x$ 协方差矩阵 $S$ 第二大的本征值 $\lambda_1$ 对应的本征向量】

从另一种角度来看 PCA

把原图像拆解成一堆组件乘上权重加一个均值

Weakness of PCA

是 unsupercised 的， PCA 会根据无 label 的 data 自动地找出 variance 最大的特征维度，但是如果真实的 label 恰恰这样分之后得到了不好的效果呢（下面的 LDA 就是用了 label 的数据降维，但它是 supervised 的）
PCA 做的事情是线性的，像把图中的 S 形拉直这种非线性的事 PCA 是做不到的

What happen to PCA?

把人脸识别中 PCA 找出的前30个 component 列出来

会发现，为什么都是一张完整的脸，不是所谓“组件”？

在 PCA 中，我们并没有要求系数必须是正数，可以是负数，这就导致了组件可以是这个减去那个得来的。

所以，我们有了 NMF

要求系数是正的，符合由组件组合而来的逻辑
要求组件是正的，符合真正意义上的组件（负数的组件在图像上不好解释）

在采用了 NMF 之后，组件更像“组件”了

Matrix Factorization 矩阵因子分解

把每一个“阿宅”和每一个手办动漫人物都表示成 $K$ 维的向量（即我们将 Dimension Descent 到了 $K$ ）

将 $M$ 个（图中错写为 $N$ ）“阿宅”的向量叠起来，再将 $N$ 个动漫人物的向量横着叠起来，将其相乘得到的矩阵与给出的原矩阵做 Minimize Error 即可。

【 latent 潜在的】

假如在表中有未知数，我们就没法拿矩阵来比较了，那我们就只对表中有的数据比较即可

同样的， Loss Function 并不是只有这一种定义方式，还可以根据你的想法加上权重、加上偏置、加上正则化项~

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

_bh CSDN认证博客专家 CSDN认证企业博客

码龄4年

19: 原创

58万+: 周排名

185万+: 总排名

1万+: 访问

: 等级

238: 积分

11: 粉丝

36: 获赞

11: 评论

8: 收藏

私信

关注

热门文章

分类专栏

机器学习【学习笔记】 14篇

最新评论

【项目部署调试】 yolov5 实操问题记录
CSDN-Ada助手: 恭喜您发布了第17篇博客！看到您对github开源项目yolov5的实操问题记录，真是受益良多。希望您能继续分享实践经验，也期待您能深入探讨一些更具挑战性的技术问题，比如如何优化模型性能或者应用场景的拓展等。谦虚地建议一下，希望您能继续保持创作热情，为大家带来更多的技术分享。期待您的下一篇作品！
【论文阅读】 Denoising Diffusion Probabilistic Models ( DDPM ）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
李宏毅2020机器学习【学习笔记】 P54 Transformer
CSDN-Ada助手: 恭喜您撰写第13篇博客！标题“李宏毅2020机器学习【学习笔记】 P54Transformer”引起了我的兴趣。您的学习笔记对于那些对机器学习感兴趣的人来说无疑是一份宝贵的资源。在这个快速发展的领域中，深入了解Transformer的原理和应用是非常有价值的。继续坚持写作，不仅是对您个人学习的巩固，也对读者来说是一次宝贵的学习机会。我期待着您下一篇博客的发布，希望您可以继续分享您的见解和学习心得。或许，您可以考虑将Transformer与其他机器学习算法进行对比，或者探索其在实际场景中的应用案例。这样的创作方式将进一步丰富您的博客内容，并为读者提供更加全面的学习体验。再次恭喜您的持续创作，期待您未来更多的精彩文章！谢谢您对机器学习领域的贡献。
李宏毅2020机器学习【学习笔记】 P57 Unsupervised Learning:Neighbor Embedding
CSDN-Ada助手: 恭喜您写下了第15篇博客！看到您的标题《李宏毅2020机器学习【学习笔记】 P55Unsupervised Learning:Neighbor Embedding》，我不禁对您的学术研究和持续创作精神感到钦佩。您对李宏毅老师的学习笔记进行了深入的研究，这是非常有价值的。在未来的创作中，我希望您能继续保持谦虚的态度，并结合自己的理解和实践经验，加入更多个人观点和见解。比如，您可以分享一些实际应用中的案例，或者对Neighbor Embedding方法的优化和改进思路。这样可以为读者提供更多的思考和启发，并进一步丰富您的博客内容。期待您的下一篇创作！
李宏毅2020机器学习【学习笔记】 P58 Unsupervised Learning:Deep Auto-Encoder
CSDN-Ada助手: 恭喜您写完了第16篇博客！您的持续创作精神令人钦佩！阅读了您的学习笔记，我对您对李宏毅2020机器学习中深度自编码器的理解印象深刻。您对无监督学习的探索给我带来了新的启发。下一步，我建议您可以继续深入研究深度自编码器的应用场景，并分享您对其优化方法的思考。期待您的下一篇博客！谢谢您的分享！

大家在看

ECharts水球图-水球4 185

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。