本文主要是写关于Scala如何操作spark的DataFrame,本文先介绍select的用法,详细请看下面的步骤,以下所有的代码都是在IntelliJ Idea里面编写并且远程调试的。
先创建sparksession对象,代码如下:
val conf = new SparkConf().setAppName("LzSparkDatasetExamples").setMaster("local")
val sparkSession = SparkSession.builder().enableHiveSupport().config(conf).getOrCreate()
创建一个DataFrame对象,代码如下:
// 这里一定要加这一行导入,否则toDF会报错
import sparkSession.implicits._
val df = sparkSession.createDataset(Seq(
("aaa", 1, 2),
("bbb", 3, 4),
("ccc", 3, 5),
("bbb", 4, 6)
)).toDF("key1",