Spark SQL和Spark Streaming简介

本文介绍了Spark SQL的DataFrames和DataSets数据类型,强调了其兼容性、高性能和可扩展性,以及包括内存列存储和字节码生成在内的性能优化技术。Spark SQL的运行架构和与Hive的集成也被提及。接着,文章转向Spark Streaming,讨论了其数据输入输出、实时处理特性、DStream的概念以及如何将实时数据流转换为RDD块进行处理。最后,提供了Spark SQL和Spark Streaming的代码实现示例。
摘要由CSDN通过智能技术生成

1. Spark SQL

  • 用于处理结构化数据,提供SQL语句查询的API接口
    Spark数据访问
SparkSQL数据类型DataFrames
  1. 这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD
  2. 该接口在Python, R, Java, Scala中都是可用的
SparkSQL数据类型DataSets
  1. Spark 1.6中添加的新接口
  2. 不支持Python
SparkSQL特点
  1. 兼容好
    兼容Hive,支持RDD,JSON文件等数据源,支持nosql数据库数据
  2. 性能高
    含有多种性能优化技术
  3. 扩展强
    SQL的语法解析,分析和优化都可自定义
SparkSQL性能优化技术
  1. 内存列存储In-Memory Columnar Storage
    优化空间占用量和读取吞吐率
  2. 字节码生成bytecode generation
    优化所有的SQL表达式,通过scala运行时放射机制实现
SparkSQL运行架构
  1. SQL语句解析(parse),找出查询项和数据源等
  2. SQL语句与数据库的数据字典绑定(bind),判断是否可执行
  3. 对提供的多种执行计划进行优化(optimize)
  4. 实际执行(execute)
    SQL语句执行
包含sqlContext和hiveContext两个分支
  1. sqlContext不支持hive查询语句
  2. hiveContext是SQLContext子类,支持hql查询
SparkSQL代码实现

spark-shell

val rdd1=sc.textFile("/demo.txt")# 读取hdfs文件
val rdd2=rdd1.map(_.split</
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值