自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark常用算子

一.Action操作1.first:返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd.first//输出结果为:(A,1)scala> var rdd = sc.makeRDD(Seq(10, 3, 1, 13,

2018-05-27 18:56:18 1732

原创 spark架构,运行原理。

一.简介Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。Spark 是一个用来实现快速而通用的集群计算的平台。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce 更加高效(官方称其速度比MapReduce要快100倍)Spark 所提供的接口非常丰富...

2018-05-16 19:54:48 1865 2

原创 hadoop集群资源管理系统YARN以及YARN的运行原理

一.简介:YARN (Yet Another Resource Negotiator)1.  (官网解释)最基本的思想是纱线拆分功能的资源管理与作业调度/监控到单独的进程。具体设想是全球(ResourceManagerRM)和每应用程序(applicationmasterAM)。应用程序是一个单一的DAG或作业的作业。2.在hadoop 1.x中jobtracker负责作业的调度(将任务与task...

2018-05-08 20:40:20 1089

原创 MapReduce简介,功能,运行原理,job的提交过程,简单的MapReduce程序求最高气温

一.MapRedeuce简介    1.2004年12月,google发布关于MapReduce的文章。    2.hadoop分布式计算框架。官方定义:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编...

2018-05-03 20:35:27 1248

原创 Hadoop核心组件之HDFS

一.HDFS简介  HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),源自于Google于2003年10月发表的GFS论文,是GFS克隆版,为hadoop提供存储功能。官方解释:Hadoop分布式文件系统(HDFS)是一种为在商用硬件上运行而设计的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的不同的地方很...

2018-04-17 20:55:34 476

原创 Linux下Hadoop集群搭建(2.7.3)完全分布式

一.准备工作1.1台已经搭建好的Linux操作系统2.Hadoop及jdk的安装包 (Hadoop是用Java开发的,所以Hadoop的编译及MapReduce的运行都需要使用JDK)3.上传文件到Linux的工具  本人习惯用winscp开机自动启动sshd:chkconfig  sshd on开机自动关闭防火墙:chkconfig  iptables  off(注意:必须开启sshd并关闭防火...

2018-04-08 13:13:44 715 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除