import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv(target_file)
cormat = pd.DataFrame(df.corr())
plt.pcolor(cormat)
plt.show()
属性之间如果完全相关(相关系数=1)意味着数据可能有错误,如同样的数据录入两次。
多个属性间的相关性很高(相关系数>0.7),即多重共线性,往往会导致预测结果不稳定。
属性与标签的相关性则不同,如果属性和标签相关,则通常意味着两者之间具有可预测的关系。