【R语言】绘制PCA之三:为什么删除一个重复、离群样本,PCA分布变化很大,变分散或 变集中。

1.剔除样本以后,PCA图里的点变集中

示例1:为什么剔除重复样本以后,反而聚在了一起。

原因:

1.1 PCA分析首先是要计算亲缘关系系数的;重复样本A、B的亲缘关系系数必然会很高,达0.99以上。

1.2 PCA作图,每个点与点之间是一个相对的概念,当2个样本A、B为重复样本时,2个样本A、B之间的距离,相对于A、B与其它样本C、D、E、F、G 亲缘关系是近的,所以A、B与其它样本C、D、E、F、G就显著的分散开2堆;

1.3 当A、B删除掉一个重复以后,A与其它样本C、D、E、F、G 亲缘关系就相对变化,PCA就变成了1堆。

     去掉重复样本A后变聚集      

2.剔除离群样本以后,PCA图里的点变分散

同样道理,当剔除一个离群样本以后,PCA图里会涌现更多的离群样本。

原因:亲缘关系的相对远近。

1.1 对于离群样本A , 其余样本B、C、D、E、F、G 与A 亲缘关系比较远,所以会发现A是离群样本。A与B、C、D、E、F、G样本间的亲缘关系太远,导致B、C、D、E、F、G之间的亲缘关系相对比较显得比较近。

1.2 当去掉一个极端亲缘关系较远的样本A以后,B、C、D、E、F、G之间的亲缘关系就会放大,显现出来,点就会变得分散。

    去掉离群样本A后又出现离群   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值