数据与预处理之利用Pandas的corr()函数筛选数据中的相似的属性

最新推荐文章于 2024-06-13 15:18:26 发布

curd_boy

最新推荐文章于 2024-06-13 15:18:26 发布

阅读量3.5k

点赞数 5

分类专栏：小技巧

本文链接：https://blog.csdn.net/weixin_43746433/article/details/95353814

版权

小技巧专栏收录该内容

13 篇文章 0 订阅

订阅专栏

# 读取数据
data = pd.read_csv('../data/basalt.csv')
data.drop(['SAMPLE NAME'],axis=1,inplace=True)
association = data.corr()
#data.corr() #相关系数矩阵，即给出了任意两个变量之间的相关系数
#data.corr()[u'好'] #只显示“好”与其他感情色彩的相关系数
#data[u'好'].corr(data[u'哭']) #两个感情色彩的相关系数
print(association.head())
# 数据预处理
# 筛选出相似的属性
delSimCol = []
colNum = association.shape[0]###列
print(association.shape[1])
print(colNum)
names = association.columns
for i in range(colNum):
    for j in range(i+1,colNum):
        if association.iloc[i,j]>0.9:
            delSimCol.append((names[i],names[j]))
print('经过筛选得到的相似的属性为：\n',delSimCol)  
delCol = [i[1] for i in delSimCol] 
data.drop(delCol,axis=1,inplace = True) # 删除列
dummiesData = pd.get_dummies(data['LAND OR SEA']) # 哑变量处理
data.drop('LAND OR SEA',axis=1,inplace=True)