Spark on hive:
将hive的元数据当作一个数据源
Hive on spark:(未来一个趋势)
Hive 本来的计算框架是mr,换成spark 来计算
目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的;spark提供了Hive的支持功能,spark通过hiveContext 可以直接操作hive 的数据;
基于HiveContextk可以使用sql/hql两种方式编写sql来对hive进行操作,包括表增删改查,往表里导入数据以及用sql语法
实现sparkSQL 查询
package cn.db.scala.sparksql.day70
import org.apache.spark.sql.Row
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.sql.functions._
/**
* Created by ptbx on 2016/5/30.
*/
/**
* Created with IntelliJ IDEA.
* User: ptbx
* Date: 2016/5/30
* Time: 23:35
* To change this template use File | Settings | File Templates.
spark 1.5 以后提供了大量的内置函数:
def agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame = {