![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 84
静卧人间
喜欢接触新东西,希望通过这个平台能把自己平时工作学习中学到的东西和大家分享交流,互相学习进步
展开
-
Spark2.0安装配置
spark2配置多个节点的集群环境配置运行测试1. 下载截止我写这篇文章的日期,spark的最新版本为2.0.0,因为我测试环境的hadoop版本是2.6.4的,所以我选择spark的版本是2.0.0,Hadoop是2.6;进入Apache Spark官网的下载页下载。2. 环境配置集群环境: 主机名 IP hadoop环境 Scala环境 Java环境 master原创 2016-11-03 14:48:18 · 1507 阅读 · 3 评论 -
Spark2.0 Programming Guide(Spark2.0编程指导)
1. Overview-概览每一个Spark应用都是由包含一个main方法的driver program组成,并且能够在一个集群上执行一系列的并行操作。Spark的第一个主要抽象概念是RDD(Resilient distributed dataset):弹性分布式数据集-分布在集群的各个节点上能够被并行操作的被分割好的数据集。RDD初始化可以由在hdfs(或其他hadoop支持的文件系统)上的文件翻译 2016-11-09 19:14:35 · 491 阅读 · 0 评论 -
SparkSQL编程指导
1. OverviewSpark SQL是spark提供的一个结构化数据处理模块。Spark提供的SparkSQL接口主要是针对数据的结构化及其计算,并针对这些方面做了大量的优化处理。SparkSQL提供了两种方式来让我们操作结构化数据:SQL和Dataset API。2. SQLSparkSQL可以直接执行sql查询,Spark SQL也可以从已经存在的hive中读取数据(关于这部分的配置在下翻译 2016-11-10 18:57:37 · 2400 阅读 · 0 评论