spark之DataFrame的json数据实战

一,DataFrame简介:
在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
二,准备数据:
注意:json数据的格式,每一行都算是一个节点所以不能有空格,每行只能写一条数据。这里也是按行读入的。
这里写图片描述

三,代码及过程解释:

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class SparkSqlDemo {
    //json数据的格式,每一行都算是一个节点所以不能有空格,每行只能写一条数据
    private static String appName = "Test Spark RDD";
    private static String master = "local";

    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.set("spark.testing.memory", "269522560000");
        JavaSparkContext sc = new JavaSparkContext(master, appName, conf);
        System.out.println(  sc );
        //通过sc建立sqlcontext
        SQLContext sqlContext = new SQLContext(sc);
        System.out.println(sqlContext   );
        //建立dataframe
        DataFrame df = sqlContext.read().json("hdfs://192.168.61.128:9000/spark001/people.json");
        //df.show();//展示所有信息
        //df.printSchema();//显示数据的结构
        //df.select(df.col("name")).show(); //条件查旬只显示数据的name
        //条件查旬name age并且所有的age都加1,不会修改原来的数据
        //df.select(df.col("name"), df.col("age").plus(1)).show();

        //数据过滤只查旬比age比21大的数据
        //df.filter(df.col("age").gt(21)).show();
        //按age分组统计个年龄计数
        df.groupBy("age").count().show();
    }

}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值