pyspark dataframe求均值，排序

weixin_45890762

已于 2022-05-21 11:20:38 修改

阅读量2.5k

点赞数

文章标签：均值算法 python 数据挖掘 spark

于 2022-05-20 21:37:28 首次发布

本文链接：https://blog.csdn.net/weixin_45890762/article/details/124890431

版权

问题描述

dataframe展示
在这里插入图片描述

希望对总面积，客厅面积等求均值

中间曲折

在网上找了很多资料，感觉rdd进行map，reduce可以完成，转化成rdd
,
每一个属性进行map,reduce,这样汇总求均值并排序，但是发现这样做太麻烦了，但是网上我没找到相关教程，于是我在库中寻找dataframe相关方法。结果让我找到了。

相关方法

1、summary()函数

suammary 函数可用于dataframe求均值，方差，最大值最小值等等
可填入参数

‘max’	所选dataframe的最大值
’mean‘	平均值
‘min’	最小值
stddev"	样本标准差
‘count’	总的个数
’25%‘	百分比的任意近似百分位数。’25%‘是个例子

实例

train_data.select('总面积','客厅面积','卧室面积','总价/万元','单价').summary().show()

select挑选哪些列，然后这些列进行summary()函数
运行结果：

在这里插入图片描述

summary()方法源码展示

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45890762

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
pyspark dataframe求均值，排序

Pyspark dataframe 进行求均值和排序
复制链接

扫一扫

python datatime 平均值_python-spark DataFrame ：计算行平均值（或任何聚合操作）

weixin_39956451的博客

12-08

1704

这里只需要一个这样的标准SQL：SELECT (US + UK + CAN) / 3 AS mean FROM df可以直接与sqlcontext.sql一起使用，也可以使用dsl表示df.select(((col("UK") + col("US") + col("CAN")) / lit(3)).alias("mean"))如果有更多的列，可以按如下方式生成表达式：from functools ...

python输入一组数字求平均值和标准差_如何计算PySpark DataFrame的平均值和标准差？...

weixin_39609423的博客

12-09

2490

您可以使用内置函数来获取聚合统计信息。以下是如何获得均值和标准偏差。from pyspark.sql.functions import mean as _mean, stddev as _stddev, coldf_stats = df.select(_mean(col('columnName')).alias('mean'),_stddev(col('columnName')).alias('s...

3 条评论您还未登录，请先登录后发表或查看评论

PySpark dataframe 按照某列排序

JingYi的专栏

02-26

4721

df.orderBy('column_name', ascending=False)

常用工具类（随堂笔记）

qq_48692860的博客

10-17

170

抽象类 abstract：abstract修饰符可以用来修饰方法也可以用来修饰类，如果用来修饰方法，那么该方法就是抽象方法。如果用来修饰类，那么该类就是抽象类；抽象类中可以没有抽象方法，但是有抽象方法的类一定要声明为抽象类；抽象类不能使用new关键字来创建对象，他是用来让子类继承的；抽象方法只有方法的声明，没有方法的实现，他是用来让子类实现的；子类继承抽象类，那么就必须要实现抽象类，没有实现的抽象方法，否则该子类也要声明为抽象类；内部类内部类：就是在一个类的内部定义一个类，比

PySpark 统计所有词频并排序返回 DataFrame

给我一点温度

09-27

2184

上一篇文章已经实现了PySpark 统计词频并返回排名TOP N：https://blog.csdn.net/sinat_26811377/article/details/101208346 发现有两个小缺点需要改一下，因此对代码做了修改。 1. 统计所有词频。而不仅仅是统计TOP N的词频。 2. 返回的结果保存为DataFrame。而不是用list。最终实现结果如下。输入文本（l...

pyspark dataframe基本操作

Super乐De博客

02-22

1051

1 创建dataframe 1.1 读取文件创建 from pyspark.sql import SparkSession #sparkSession为同统一入口 #创建spakr对象 spark = SparkSession\ .builder\ .appName('readfile')\ .getOrCreate() # 1.读取csv文件 # 1.读取csv文件 logFilePath = 'births_train.csv' log_df = spark.read.

python spark dataframe删除字段_pyspark dataframe基本操作看这篇就够了

weixin_30275391的博客

01-28

1750

1 创建dataframe1.1 读取文件创建from pyspark.sql import SparkSession #sparkSession为同统一入口#创建spakr对象spark = SparkSession\.builder\.appName('readfile')\.getOrCreate()# 1.读取csv文件# 1.读取csv文件logFilePath = 'births_tr...

pandas dataframe 和 pyspark dataframe

weixin_48412526的博客

05-10

633

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.创建DataFrame2.选取数据列选取行选取条件选择（根据A列值选择B列）统计全局分组排序总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工

使用 PySpark 求均值、最值与方差

Curren的博客

09-13

2827

Python 对DataFrame数据分组并排序并选择最优数据

12-21

Python 对DataFrame数据分组并排序并选择最优数据目的：对数据按第一列分组，按第二列降序排序，按第三列升序排序，选择每组中最好的输出数据：开始： import pandas as pd df = pd.read_excel('product.xlsx',names=['product','score1','score2'],header=None) df df = df.sort_values(by=['score1','score2'],ascending=[False,True]) #False表示降序排序 df df = df.groupby('produc

python中avg函数可以求序列的均值_python – PySpark：使用过滤函数后取一列的平均值...

weixin_39951181的博客

12-08

1171

我使用以下代码来获得薪水大于某个阈值的人的平均年龄.dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})列的年龄是数字(浮点数),但我仍然收到此错误.py4j.protocol.Py4JJavaError: An error occurred while calling o86.agg.: scala.MatchError: ...

PySpark计算均值、方差、偏度和峰度

Never-Giveup的博客

01-24

1万+

参考 https://blog.csdn.net/u013555719/article/details/78530879 https://blog.csdn.net/suzyu12345/article/details/79673473

PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置、排序操作详解_pyspark

2401_84183545的博客

04-17

629

后面四个用的场景十分少见，Series和DataFrame是最常用的数据类型，掌握这两个数据结构操作方法足够进行数据分析。(img-KSwDj6vt-1713317105298)]拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。三维的数组，可以理解为DataFrame的容器。可以保持自然顺序,但它会导致内部排序的性能开销。像Panel一样的4维数据容器。以时间为索引的Series。描述的数值均为float。和pandas是一样的。

pyspark df 二次排序

WGS.

06-06

557

pyspark df 二次排序

pyspark之Dataframe操作（二）

人生百态361

02-28

1万+

1. 分组统计 2. join 操作 3. 缺失值处理 4. 空值判断 5. 缺失值处理 6. 离群点 7. 重复值 8. 生成新列 9. 类eval操作 10. 行的最大最小值 11. when操作 12. lag,lead平移 1. 分组统计分组统计应该是用的最多的方法了，比如分地区求平均值，最大最小值等。 # 分组计算1 color_df.groupBy('length').coun...

python中summary_Pyspark:如何实现dataframe descripe（）和summary（）呢

weixin_39922534的博客

12-07

513

def summary(ds: Dataset[_], statistics: Seq[String]): DataFrame = {val defaultStatistics = Seq("count", "mean", "stddev", "min", "25%", "50%", "75%", "max")val selectedStatistics = if (statistics.nonE...

学习笔记-DataFrame求多列平均值