1. Spark SQL
- 用于处理结构化数据,提供SQL语句查询的API接口
SparkSQL数据类型DataFrames
- 这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD
- 该接口在Python, R, Java, Scala中都是可用的
SparkSQL数据类型DataSets
- Spark 1.6中添加的新接口
- 不支持Python
SparkSQL特点
- 兼容好
兼容Hive,支持RDD,JSON文件等数据源,支持nosql数据库数据 - 性能高
含有多种性能优化技术 - 扩展强
SQL的语法解析,分析和优化都可自定义
SparkSQL性能优化技术
- 内存列存储In-Memory Columnar Storage
优化空间占用量和读取吞吐率 - 字节码生成bytecode generation
优化所有的SQL表达式,通过scala运行时放射机制实现
SparkSQL运行架构
- SQL语句解析(parse),找出查询项和数据源等
- SQL语句与数据库的数据字典绑定(bind),判断是否可执行
- 对提供的多种执行计划进行优化(optimize)
- 实际执行(execute)
包含sqlContext和hiveContext两个分支
- sqlContext不支持hive查询语句
- hiveContext是SQLContext子类,支持hql查询
SparkSQL代码实现
spark-shell
val rdd1=sc.textFile("/demo.txt")# 读取hdfs文件
val rdd2=rdd1.map(_.split</