sparksql_分析相关性

只要数据是DataFrame格式,在PySpark中计算相关性非常容易。
#唯一的困难是.corr(…)方法现在支持Pearson相关系数,而它只能计算成对的相关性

# 只要数据是DataFrame格式,在PySpark中计算相关性非常容易。
# 唯一的困难是.corr(…)方法现在支持Pearson相关系数,而它只能计算成对的相关性,如下:
​
fraud_df.corr('balance', 'numTrans')
0.00044523140172659576
In order to create a correlations matrix you can use the script below.

# 创建一个相关矩阵:
n_numerical = len(numerical)
​
corr = []for i in range(0, n_numerical):
    temp = [None] * i
    
    for j in range(i, n_numerical):
        temp.append(fraud_df.corr(numerical[i], numerical[j]))
    corr.append(temp)
    
corr
​
# 可以看见特征之间几乎不存在相关性,因此,所有的特征都能用到我们的模型中。
[[1.0, 0.00044523140172659576, 0.00027139913398184604],
 [None, 1.0, -0.0002805712819816179],
 [None, None, 1.0]]

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值