1.剔除样本以后,PCA图里的点变集中
示例1:为什么剔除重复样本以后,反而聚在了一起。
原因:
1.1 PCA分析首先是要计算亲缘关系系数的;重复样本A、B的亲缘关系系数必然会很高,达0.99以上。
1.2 PCA作图,每个点与点之间是一个相对的概念,当2个样本A、B为重复样本时,2个样本A、B之间的距离,相对于A、B与其它样本C、D、E、F、G 亲缘关系是近的,所以A、B与其它样本C、D、E、F、G就显著的分散开2堆;
1.3 当A、B删除掉一个重复以后,A与其它样本C、D、E、F、G 亲缘关系就相对变化,PCA就变成了1堆。
去掉重复样本A后变聚集
2.剔除离群样本以后,PCA图里的点变分散
同样道理,当剔除一个离群样本以后,PCA图里会涌现更多的离群样本。
原因:亲缘关系的相对远近。
1.1 对于离群样本A , 其余样本B、C、D、E、F、G 与A 亲缘关系比较远,所以会发现A是离群样本。A与B、C、D、E、F、G样本间的亲缘关系太远,导致B、C、D、E、F、G之间的亲缘关系相对比较显得比较近。
1.2 当去掉一个极端亲缘关系较远的样本A以后,B、C、D、E、F、G之间的亲缘关系就会放大,显现出来,点就会变得分散。
去掉离群样本A后又出现离群