算法总结(五)关于K邻近、MDS(多维缩放)

拿到周志华的《机器学习》,发现关于特征选择这块了解有点薄弱,顺势好好学习一下

学习资源

《机器学习》周志华

《矩阵论》杨明

https://cuijiahua.com/blog/2017/11/ml_1_knn.html JackCui

https://blog.csdn.net/victoriaw/article/details/78500894 CodeTutor

https://www.cnblogs.com/lochan/p/6627511.html

https://blog.csdn.net/huguozhiengr/article/details/81258792 hgz_dm

                                                                                                                                                                                    

  • k邻近

首先k邻近算法是一种监督学习方法,意味着这里面的样本数据是需要有(特征值,类别),它的思想就是基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居进行预测

我们看看上面的这幅图,不同图列代表不同的类别,绿色代表我们需要做的预测对象,我们首先要做的是计算出距离矩阵,即绿色图像所在点与所有样本的距离,然后根据距离找到最近的k个点,然后根据k个点进行投票,如果k=3,可以发现,红色图形较多,所以取红色,然而当我们k=5的时候,则会取到蓝色

  • MDS(多维缩放)

前面我们做的多维缩放里面有一个步骤叫做计算距离矩阵,然而当我们的特征非常多的时候,这个矩阵可能会非常非常大,不利用运算与存储,所以,需要用到多维缩放,这个缩放的对象不是样本,是距离矩阵,这点必须清楚

另外为了达到缩放的效果,还有一点必须清楚,就是缩放的结果会产生距离的失真,并不能保证缩放后的结果与原结果完全相等

操作过程就是如这位博主缩写https://blog.csdn.net/victoriaw/article/details/78500894

仔细阅读发现有一个问题很容混淆,就是为B矩阵进行特征值分解后,如果想讲到对应的维数P,必须取前P个特征值,这是很重要的,在特征值分解完的时候,如果只取前P个特征值,意味较小的特征值被抛弃,达到降维的目的,同时,也损失了很小的精度

另外还有一个数据中心化的问题,这个问题的提出是对于距离有平移和旋转不变性提出来的,但是这个数据中心化取均值为0,只解决了平移不变性问题

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值