真正在做数据分析和数据处理的时候,spark-sql还是用得比较的,本文主要给出基于Scala的spark-sql开发demo,本文已经假设IntelliJ Idea上的Scala开发环境,包括SBT已经安装配置完成,如果读者还没有这些准备的话,可以参考我前面的关于IntelliJ Idea上Scala的spark开发环境搭建相关文章。
本文主要是通过spark-sql来操作Hive数据库,旨在帮助读者完成本地spark-sql的开发环境。
主要步骤如下:
- 导入相关依赖包
- 编写spark-sql相关代码
- 打包远程运行
导入相关依赖包
如下图所示:
编写spark-sql相关代码
本文的demo主要是通过spark-sql来查看Hive数据仓库,主要完成步骤如下:
创建“LzSparkSqlTest.scala“类
import org.apache.log4j.Logger
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
class LzSparkSqlTest {
val LOGGER = Logger.getLogger(this.getClass)
/*
获取SparkSession实例
*/
def getOrCreateSparkSession(): SparkSession ={
val conf = new SparkConf().setAppName("TestSparkSqlOnHive")
.setMaster("local")
LOGGER.info("--------准备获取SparkSession对象-----------")
val sparkSession = SparkSession.builder().enableHiveSupport