- Action 操作
1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList()
返回值是一个java类型的数组,返回dataframe集合所有的行 3、 count()
返回一个number类型的,返回dataframe集合的行数
4、 describe(cols: String*)
返回一个通过数学计算的类表值(count, mean, stddev, min, and
max),这个可以传多个参数,中间用逗号分隔,如果有字段为空,那么不参与运算,只这对数值类型的字段。
例如df.describe(“age”, “height”).show()
5、 first() 返回第一行 ,类型是row类型
6、 head() 返回第一行 ,类型是row类型
7、 head(n:Int)返回n行 ,类型是row 类型
8、show()返回dataframe集合的值默认是20行,返回类型是unit
9、 show(n:Int)返回n行,,返回值类型是unit
10、 table(n:Int) 返回n行 ,类型是row 类型
dataframe的基本操作
1、cache()同步数据的内存
2、columns 返回一个string类型的数组,返回值是所有列的名字
3、dtypes返回一个string类型的二维数组,返回值是所有列的名字以及类型
4、explan()打印执行计划 物理的
5、explain(n:Boolean) 输入值为 false 或者true ,返回值是unit 默认是false ,如果输入true将会打印 逻辑的和物理的
6、 isLocal 返回值是Boolean类型,如果允许模式是local返回true 否则返回false
7、 persist(newlevel:StorageLevel) 返回一个dataframe.this.type 输入存储模型类型
8、 printSchema() 打印出字段名称和类型 按照树状结构来打印
9、registerTempTable(tablename:String) 返回Unit,将df的对象只放在一张表里面,这个表随着对象的删除而删除了
10、 schema 返回structType类型,将字段名称和类型按照结构体类型返回
11、 toDF()返回一个新的dataframe类型的
12、toDF(colnames:String*)将参数中的几个字段返回一个新的dataframe类型的,
13、 unpersist()返回dataframe.this.type 类型,去除模式中的数据
14、unpersist(blocking:Boolean)返回dataframe.this.type类型 true
和unpersist是一样的作用false 是去除RDD
DataFrame的基本操作函数
最新推荐文章于 2024-06-03 10:48:06 发布