spark
下页Pro
这个作者很懒,什么都没留下…
展开
-
spark基础学习
1背景介绍 现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景: Ø 迭代式算法:迭代式机器转载 2015-05-22 19:57:19 · 451 阅读 · 0 评论 -
spark快速入门
目录 [−] 使用Spark进行交互式分析 基本操作更多的RDD操作缓存 独立应用深入了解 本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写独立程序。 你可以查看Spark编程指南了解完整的参考。 开始下面的快速入门之前,首先转载 2015-05-22 19:48:17 · 532 阅读 · 0 评论 -
spark 案例集群测试整理
工作过程:今天打算使用spark 自带的案例sparkpi 对集群进行测试,主要向了解集群启动过程及机器的负载情况。没想到问题还还真不少,感谢群友,特别是hali 支持。 主要的问题有3个: 1.测试spark 集群与local 运行方式使用的差别及集群测试时Ip 与机器访问的处理 2.spark 集群不能重启问题的处理 1。.测试spark 集群与local 运行方式使转载 2015-05-22 19:46:29 · 692 阅读 · 0 评论 -
从零开始学习,Apache Spark源码走读(一)
概要 本文以wordCount为例,详细说明Spark创建和运行job的过程,重点是在进程及线程的创建。 实验环境搭建 在进行后续操作前,确保下列条件已满足。 下载spark binary 0.9.1安装scala安装sbt安装java 启动spark-shell 单机模式运行,即local模式 local模式运行非常简单,只要运行以下命令即可,假设当转载 2015-05-22 19:44:52 · 839 阅读 · 0 评论 -
Spark RDD:弹性分布式数据集
RDD是只读的、分区记录的集合一个RDD的生成只有两种途径: 基于内存集合或稳定物理存储中的数据集执行确定性操作通过在已有的RDD上执行转换操作 RDD具有自动容错、位置感知和可伸缩性特点RDD不需要物化,RDD通过Lineage来重建丢失的分区:一个RDD中包含了如何从其他RDD衍生所必须的相关信息,从而不需要检查点就可以重构丢失的数据分区RDD只支持粗粒度转换,即一个操作会被应用在RD转载 2015-05-22 19:50:37 · 1289 阅读 · 0 评论 -
Spark Configuration(Spark配置)
Spark提供了三个位置来配置系统: Spark Properties(Spark 属性)控制大多数 application 参数,并且可以使用 SparkConf 对象设置通过配置每个节点上的 conf/spark-env.sh 脚本,可以配置每台机器的环境变量,如 ip 地址日志可以通过 log4j.properties 配置 Spark 属性 Spark属性控制 appli转载 2015-05-22 19:50:02 · 2936 阅读 · 0 评论 -
spark学习资料
(一)spark 相关安装部署、开发环境(二)spark 架构、原理与编码(三)spark 监控与管理(四)YARN & spark(五)spark 数据平台架构(六)spark 应用与实践(七)spark 机器学习实践(八)Scala 学习指北(九)Spark book附: (一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http转载 2015-05-22 19:53:15 · 1141 阅读 · 0 评论 -
spark开发指南
目录 [−] 简介接入Spark初始化Spark 使用shell 弹性分布式数据集RDD 并行集合(Parallelized Collections)外部数据集(External Datasets)RDD 的操作 基础操作将function对象传给Spark使用键值对转换(transformation)动作(actions) RDD持久化 存储级别的选转载 2015-05-22 19:47:38 · 1406 阅读 · 0 评论 -
spark属性配置
目录 [−] Spark属性动态加载Spark属性查看Spark属性可用的属性 应用属性运行时环境Runtime EnvironmentShuffle BehaviorSpark UICompression and SerializationExecution BehaviorNetworkingSchedulingSecuritySpark Streaming集群管理器Clu转载 2015-05-22 19:49:33 · 2194 阅读 · 0 评论 -
spark发展与未来
前言 现今Spark正是风头正劲时,Spark本是UCBerkeley的AMPLab诞生的项目,后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理,到交互式查询,一直到图计算和机器学习,可谓摆开了架势、拉长了战线,一方面挑战老前辈Hadoop和MapReduce,另一方面又随时准备迎接同样的后起之秀的挑战。转载 2015-05-22 19:51:59 · 938 阅读 · 0 评论