sparksql_分析相关性

最新推荐文章于 2023-06-15 02:01:29 发布

炼丹师666

最新推荐文章于 2023-06-15 02:01:29 发布

阅读量1.3k

点赞数 1

分类专栏： spark 数据处理

本文链接：https://blog.csdn.net/wj1298250240/article/details/103946964

版权

spark 同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

数据处理

17 篇文章 0 订阅

订阅专栏

只要数据是DataFrame格式，在PySpark中计算相关性非常容易。
#唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性

# 只要数据是DataFrame格式，在PySpark中计算相关性非常容易。
# 唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性，如下：

fraud_df.corr('balance', 'numTrans')
0.00044523140172659576
In order to create a correlations matrix you can use the script below.

# 创建一个相关矩阵：
n_numerical = len(numerical)

corr = []

for i in range(0, n_numerical):
    temp = [None] * i
    
    for j in range(i, n_numerical):
        temp.append(fraud_df.corr(numerical[i], numerical[j]))
    corr.append(temp)
    
corr

# 可以看见特征之间几乎不存在相关性，因此，所有的特征都能用到我们的模型中。
[[1.0, 0.00044523140172659576, 0.00027139913398184604],
 [None, 1.0, -0.0002805712819816179],
 [None, None, 1.0]]

炼丹师666

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sparksql_分析相关性

只要数据是DataFrame格式，在PySpark中计算相关性非常容易。#唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性# 只要数据是DataFrame格式，在PySpark中计算相关性非常容易。# 唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性，如下：fraud_df.corr('balance', ...
复制链接

扫一扫

专栏目录