学习了皮尔逊相关系数的计算:
1 功能:计算特征与目标变量之间的相关度
2 输入:x为特征,y为目标变量.
输出:r: 相关系数 [-1,1]之间,p-value: p值。 (r, p-value )
( p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。)
3 代码
import numpy as np
from scipy.stats import pearsonr
import random
np.random.seed(0)
size=300
x=np.random.normal(0,1,size)
print "Lower noise",pearsonr(x,x+np.random.normal(0,1,size))
print "Higher noise",pearsonr(x,x+np.random.normal(0,10,size))
Lower noise (0.71824836862138408, 7.3240173129983507e-49)
Higher noise (0.057964292079338155, 0.31700993885324752)