Spark SQL和Spark Streaming简介

最新推荐文章于 2024-07-24 22:35:05 发布

翱翔的江鸟

最新推荐文章于 2024-07-24 22:35:05 发布

阅读量2.9k

点赞数

分类专栏： Spark Hive MySQL 大数据文章标签： spark streaming sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxfghy/article/details/80969097

版权

本文介绍了Spark SQL的DataFrames和DataSets数据类型，强调了其兼容性、高性能和可扩展性，以及包括内存列存储和字节码生成在内的性能优化技术。Spark SQL的运行架构和与Hive的集成也被提及。接着，文章转向Spark Streaming，讨论了其数据输入输出、实时处理特性、DStream的概念以及如何将实时数据流转换为RDD块进行处理。最后，提供了Spark SQL和Spark Streaming的代码实现示例。

摘要由CSDN通过智能技术生成

1. Spark SQL

用于处理结构化数据,提供SQL语句查询的API接口

SparkSQL数据类型DataFrames

这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD
该接口在Python, R, Java, Scala中都是可用的

SparkSQL数据类型DataSets

Spark 1.6中添加的新接口
不支持Python

SparkSQL特点

兼容好
兼容Hive,支持RDD,JSON文件等数据源,支持nosql数据库数据
性能高
含有多种性能优化技术
扩展强
SQL的语法解析,分析和优化都可自定义

SparkSQL性能优化技术

内存列存储In-Memory Columnar Storage
优化空间占用量和读取吞吐率
字节码生成bytecode generation
优化所有的SQL表达式,通过scala运行时放射机制实现

SparkSQL运行架构

SQL语句解析(parse),找出查询项和数据源等
SQL语句与数据库的数据字典绑定(bind),判断是否可执行
对提供的多种执行计划进行优化(optimize)
实际执行(execute)

包含sqlContext和hiveContext两个分支

sqlContext不支持hive查询语句
hiveContext是SQLContext子类,支持hql查询

SparkSQL代码实现

spark-shell

val rdd1=sc.textFile("/demo.txt")# 读取hdfs文件
val rdd2=rdd1.map(_.split</

最低0.47元/天解锁文章

翱翔的江鸟

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。