# 读取数据
data = pd.read_csv('../data/basalt.csv')
data.drop(['SAMPLE NAME'],axis=1,inplace=True)
association = data.corr()
#data.corr() #相关系数矩阵,即给出了任意两个变量之间的相关系数
#data.corr()[u'好'] #只显示“好”与其他感情色彩的相关系数
#data[u'好'].corr(data[u'哭']) #两个感情色彩的相关系数
print(association.head())
# 数据预处理
# 筛选出相似的属性
delSimCol = []
colNum = association.shape[0]###列
print(association.shape[1])
print(colNum)
names = association.columns
for i in range(colNum):
for j in range(i+1,colNum):
if association.iloc[i,j]>0.9:
delSimCol.append((names[i],names[j]))
print('经过筛选得到的相似的属性为:\n',delSimCol)
delCol = [i[1] for i in delSimCol]
data.drop(delCol,axis=1,inplace = True) # 删除列
dummiesData = pd.get_dummies(data['LAND OR SEA']) # 哑变量处理
data.drop('LAND OR SEA',axis=1,inplace=True)
数据与预处理之利用Pandas的corr()函数筛选数据中的相似的属性
最新推荐文章于 2024-06-13 15:18:26 发布