sparksql_count_countDistinct

最新推荐文章于 2023-03-03 14:51:39 发布

炼丹师666

最新推荐文章于 2023-03-03 14:51:39 发布

阅读量3.2k

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/wj1298250240/article/details/103944966

版权

spark 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

#ok.现在来计算下是否有重复的ID
# count  计算行数   countDistinct计算id的唯一数
import pyspark.sql.functions as fn #导入spark sql的一些函数

df.agg(
    fn.count('id').alias('count'),
    fn.countDistinct('id').alias('distinct')
).show()
+-----+--------+
|count|distinct|
+-----+--------+
|    5|       4|
+-----+--------+

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

炼丹师666

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sparksql_count_countDistinct

#ok.现在来计算下是否有重复的ID# count 计算行数 countDistinct计算id的唯一数import pyspark.sql.functions as fn #导入spark sql的一些函数df.agg( fn.count('id').alias('count'), fn.countDistinct('id').alias('distinct')...
复制链接

扫一扫