#ok.现在来计算下是否有重复的ID
# count 计算行数 countDistinct计算id的唯一数
import pyspark.sql.functions as fn #导入spark sql的一些函数
df.agg(
fn.count('id').alias('count'),
fn.countDistinct('id').alias('distinct')
).show()
+-----+--------+
|count|distinct|
+-----+--------+
| 5| 4|
+-----+--------+
sparksql_count_countDistinct
最新推荐文章于 2023-03-03 14:51:39 发布