基于spark的Scala编程—DataFrame操作之分组聚合

最新推荐文章于 2024-04-12 02:42:32 发布

心相印-Garrett

最新推荐文章于 2024-04-12 02:42:32 发布

阅读量2.2k

点赞数 1

分类专栏： Spark/Hadoop 文章标签： spark Scala DataFrame 分组聚合

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/wgh1015398431/article/details/103169846

版权

本文探讨了在Scala环境中使用Spark DataFrame进行分组聚合的方法。通过创建sparksession对象，然后构建DataFrame，详细展示了相关操作代码，这些代码可在IntelliJ IDEA中本地调试或远程服务器上执行。

摘要由CSDN通过智能技术生成

本文主要是写关于Scala如何操作spark的DataFrame，本文先介绍分组聚合的用法，详细请看下面的步骤，以下所有的代码都是在IntelliJ Idea里面编写并且远程调试的。

先创建sparksession对象，代码如下：

    val conf = new SparkConf().setAppName("LzSparkDatasetExamples").setMaster("local")
    val sparkSession = SparkSession.builder().enableHiveSupport().config(conf).getOrCreate()

创建一个DataFrame对象，代码如下：

    // 这里一定要加这一行导入，否则toDF会报错
    import sparkSession.implicits._
    val df = sparkSession.createDataset(Seq(
      ("aaa", 1, 2),
      ("bbb", 3, 4),
      ("ccc", 3, 5),
      ("bbb", 4, 6)
    )).toDF

最低0.47元/天解锁文章

心相印-Garrett

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
基于spark的Scala编程—DataFrame操作之分组聚合

本文主要是写关于Scala如何操作spark的DataFrame，本文先介绍分组聚合的用法，详细请看下面的步骤，以下所有的代码都是在IntelliJ Idea里面编写并且远程调试的。先创建sparksession对象，代码如下： val conf = new SparkConf().setAppName("LzSparkDatasetExamples").setMaster("local...
复制链接

扫一扫

专栏目录