Machine Learning week 8 Dimensionality Reduction

最新推荐文章于 2023-12-09 16:29:28 发布

java能干什么

最新推荐文章于 2023-12-09 16:29:28 发布

阅读量629

点赞数 2

分类专栏：算法学习文章标签：算法 machine learning

算法学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Dimensionality Reduction

这是另外一种unsupervised learning

Motivation I: Data Compression

如下图，其中两个维度分别为厘米和英尺(四舍五入到整数英尺)，而这两个维度的信息其实是高度冗余的信息。当我们有很多feature的时候，其中可能有一些feature之间有着很强的关联性

下面来看一下，如何压缩数据，下面我们画出图中的绿色线，也就是一条fit所有点的一条直线，然后把所有的点x向这条线上做投影，那么会得到新的点z，然后以这条绿线作为新的坐标系，每个z点都会有一个数字来代表它的坐标，这样我们就把x，从一个2维点转化为了1维点。

比如我们有很多1000维的数据，我们想要把它们变成100维空间的数据。或者我们想把它们变成3D或者2D的数据，以便我们可以把它们plot出来进行观察。

下面左1中我们找到一个比较好的贴合所有点的平面，中间图中，我们把所有点向中间的平面进行了投影，这个平面可以用两个向量表示，分别是z1和z2，然后我们的所有的点就都可以用z1和z2进行表示，成为一个2D的数据了。

Motivation: Data Visualization

假如我们有很多国家的信息，每个国家都有15个维度的信息。如果能把这些信息plot出来的话，我们可以有更好的直观理解。

但是这么多的feature，我们很难把它们画出来，但是如果把这些信息转化成2D或者3D的信息的话，就可以画出来了。

下面我们把这些信息转化成了2D的数据，但是我们难以只管了解到2个维度分别代表什么

把数据plot出来，然后我们会发现横坐标和国家的整体GDP或者整体size对应，纵轴和人均Gdp对应

Principal Component Analysis Problem Formulation

PCA是最常使用的降维方法。

我们如何去选择一条直线来作为新的坐标呢，如下图，红色的线会是比较好的选择，因为每个点和点在线上的投影之间的距离的平方和很小，称为projection error。

而粉红色的线就不是一个好选择了。因为每个点到线的投影之间的距离都很大，对应的projection error也会很大

下面是PCA的比较官方的定义

其中向量的正负方向无所谓，只要代表的是同一个直线

对于3D的例子中，老师说u1和u2都是过原点的，这个很奇怪？？？？

PCA并不是liner regression，首先他们的cost function的计算方法是不同的，左图是liner regression，计算的是y轴方向的误差，右图是PCA计算的是点和线之间最短距离的长度。另外一点就是liner regression中我们要预测y的值，但是PCA中是没有y存在的。