大数据
zhang_yuming
这个作者很懒,什么都没留下…
展开
-
使用Eclipse基于Maven使用Java开发WordCount程序项目
1.前提条件 下载JavaEE Eclipse ,自带Maven 安装好JDK1.8 下载并配置了Hadoop 2.6.x 2.创建Maven Project 选择 Maven-archetype-quickstart 选项 将项目的 JRE换成 JDK1.8,点击编辑 选择 系统的1.8版本 配置POM文件,为了以...2016-02-11 12:15:17 · 502 阅读 · 0 评论 -
读源码剖析TaskScheduler运行内幕及本地性算法确定
一:通过Spark-shell运行程序来观察TaskScheduler内幕1,当我们启动Spark-shell本身的时候命令终端反馈回来的主要是ClientEndpoint和SparkDeploySchedulerBackend,这是因为此时还没有任何Job的触发,这是启动Application本身而已,所以主要就是实例化SparkContext并注册当前的应用程序给Master且从集群中获...2016-02-13 19:52:10 · 154 阅读 · 0 评论 -
从海量订单中利用Map Reduce获取Top N的较优算法实现应用程序
package com.dt.spark.topn;import java.io.IOException;import java.util.Arrays;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....2016-02-14 15:09:48 · 206 阅读 · 0 评论 -
Spark 缓存管理-CacheManger彻底解密源码
Spark之所以非常出色是基于RDD构成了一体化、多元化计算核心,所以就需要在处理多范式的计算时不需要部署多个框架,只需要一个团队一个技术堆栈就可以了解决所有大数据的计算问题,相对来说在软件、硬件上团队的投入都会降低,产出确又会很高。 作为商业的本质属性来说:更低的成本,更高的产出永远都是对的,而且就目前来看当前Spark产能来说,虽然目前基于RDD上面有五大子框架,但其实Spa...2016-02-18 19:23:29 · 255 阅读 · 0 评论