使用pandas Correlation函数批量删除相关性冗余特征、实现特征筛选(feature selection)
冗余特征或者相关性非常强的特征,会造成共线性问题。
1、相关性高的特征太多放大了噪声的作用,多个特征实际上“平分“了这类特征对模型的贡献,这样就导致模型对于数据的变动更加敏感,泛化误差增大;
2、对于变量的分析造成影响,衡量变量的重要性或贡献的时候存在困难。
对于两个随机变量,独立一定不相关,不相关不一定独立。有这么一种直观的解释(不一定非常准确):独立代表两个随机变量之间没有任何关系,而相关仅仅是指二者之间没有线性关系,所以不难推出以上结论。
衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数
读取letter.csv数据,该数据来自UCI数据集。
df_new = pd.read_csv('E:\\data\\letter.csv')
df_new.he