- 博客(2)
- 资源 (9)
- 收藏
- 关注
原创 Spark SQL入门基础
Spark SQL简介 从Shark说起 Shark即hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划、翻译执行计划优化等逻辑,可以近似认为将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的RDD操作。Shark的出现,使得SQL-o...
2018-06-27 18:05:34 7390
原创 RDD与共享变量
RDD和共享变量是Spark中的两个重要抽象。 RDD 弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。 RDD的创建 从文件系统中加载数据创建 通过并行集合(数据)创建 val ...
2018-06-15 17:45:55 1479 1
ksoap2-android
2016-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人