spark
疯流小子
这个作者很懒,什么都没留下…
展开
-
CentOS6.5下spark分布式集群的搭建
Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序。 下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell环境可以直接原创 2014-11-05 17:04:27 · 1917 阅读 · 0 评论 -
spark1.0.x完美运行在yarn上
1. 搭建环境 CentOS6.5 + hadoop2.2.0 + spark 1.0.x 2.spark on yarn 上 前提是:已经安装了hadoop2.2.0的集群,hadoop集群的详细安装步骤我累述了。 1. 下载spark1.0.0版本 地址: http://d3kbcqa49mib13.cloudfron原创 2014-12-10 10:55:55 · 718 阅读 · 0 评论 -
Spark Streaming 和 Flume-NG的整合
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。 Spark Streaming流式处理系统特点有: 将流式计算分解成一系列短小的批原创 2015-01-19 16:46:41 · 1688 阅读 · 0 评论