Spark
qwurey
学生
展开
-
hadoop2.2.0上spark伪分布式安装
从官网上下下载合适的版本:原创 2014-11-12 14:19:13 · 4933 阅读 · 1 评论 -
spark shell的学习
1. 进入SPARK_HOME/bin下运行命令:原创 2014-11-12 15:13:52 · 28597 阅读 · 1 评论 -
Spark1.5.0 + Hadoop2.7.1整合
Hadoop2.7.1已经配置完毕。Hosts分配如下:master 172.16.15.140slave1 172.15.15.141slave2 172.16.15.142一、安装Scala:下载地址:http://www.scala-lang.org/download/2.11.7.html (scala-2.11.7.tgz)以下全部使用root权限操作。(1)创建/usr/s原创 2015-11-12 21:40:42 · 7152 阅读 · 0 评论 -
SparkSQL简单测试
osx + idea15跑单机测试。环境: JDK 安装scala2.10.6 导入Libraies:spark-assembly-1.5.0-hadoop2.6.0.jar使用示例编写简单的scala程序,从文本文件中加载用户数据并从数据集中创建一个DataFrame对象。然后运行DataFrame函数,执行特定的数据选择查询。文本文件customers.txt中的内容如下:Tom,12M原创 2015-11-15 17:25:08 · 3249 阅读 · 0 评论 -
Spark分布式计算执行模型
本文转自:《Spark分布式计算执行模型》 作者:火光摇曳亮点:通过最基础的WordCount程序介绍了RDD,Partition,和如何通过RDD之间的依赖关系生成RDD DAG(Stage),使我们可以非常容易的理解Spark的分布式计算执行模型。引言相对Hadoop, Spark在处理需要迭代运算的机器学习训练等任务上有着很大性能提升,同时提供了批处理、转载 2016-03-11 18:17:22 · 2357 阅读 · 0 评论 -
SparkSQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上Spark原生支持对HDFS文件系统的访问使用原创 2016-05-18 22:20:08 · 70719 阅读 · 8 评论