day70:Spark SQL内置函数解密与实战

最新推荐文章于 2024-06-01 08:43:14 发布

黄色沙琪玛

最新推荐文章于 2024-06-01 08:43:14 发布

阅读量1.2k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/zhanglin200508/article/details/51590361

版权

Spark on hive:

将hive的元数据当作一个数据源

Hive on spark:（未来一个趋势）

Hive 本来的计算框架是mr，换成spark 来计算

目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的；spark提供了Hive的支持功能，spark通过hiveContext 可以直接操作hive 的数据；

基于HiveContextk可以使用sql/hql两种方式编写sql来对hive进行操作，包括表增删改查，往表里导入数据以及用sql语法

实现sparkSQL 查询

package cn.db.scala.sparksql.day70

import org.apache.spark.sql.Row
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.sql.functions._


/**
 * Created by ptbx on 2016/5/30.
 */
/**
 * Created with IntelliJ IDEA.
 * User: ptbx
 * Date: 2016/5/30
 * Time: 23:35
 * To change this template use File | Settings | File Templates.
  spark 1.5 以后提供了大量的内置函数：
   def agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame = {

最低0.47元/天解锁文章

黄色沙琪玛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
day70:Spark SQL内置函数解密与实战

Spark on hive:将hive的元数据当作一个数据源Hive on spark:（未来一个趋势）Hive 本来的计算框架是mr，换成spark 来计算目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的；spark提供了Hive的支持功能，spark通过hiveContext 可以直接操作hive 的数据；基于HiveContextk可以使用s
复制链接

扫一扫

专栏目录