玛卡巴卡beng-CSDN博客

原创 spark常用算子

一.Action操作1.first：返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd.first//输出结果为：(A,1)scala> var rdd = sc.makeRDD(Seq(10, 3, 1, 13,

2018-05-27 18:56:18 1753

一.简介Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。Spark 是一个用来实现快速而通用的集群计算的平台。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比MapReduce 更加高效（官方称其速度比MapReduce要快100倍）Spark 所提供的接口非常丰富...

2018-05-16 19:54:48 1881 2

原创 hadoop集群资源管理系统YARN以及YARN的运行原理

一.简介：YARN (Yet Another Resource Negotiator)1. (官网解释)最基本的思想是纱线拆分功能的资源管理与作业调度/监控到单独的进程。具体设想是全球(ResourceManagerRM)和每应用程序(applicationmasterAM)。应用程序是一个单一的DAG或作业的作业。2.在hadoop 1.x中jobtracker负责作业的调度（将任务与task...

2018-05-08 20:40:20 1107

原创 MapReduce简介，功能，运行原理，job的提交过程，简单的MapReduce程序求最高气温

一.MapRedeuce简介 1.2004年12月，google发布关于MapReduce的文章。 2.hadoop分布式计算框架。官方定义：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编...

2018-05-03 20:35:27 1262

原创 Hadoop核心组件之HDFS

一.HDFS简介 HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），源自于Google于2003年10月发表的GFS论文，是GFS克隆版，为hadoop提供存储功能。官方解释：Hadoop分布式文件系统（HDFS）是一种为在商用硬件上运行而设计的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的不同的地方很...

2018-04-17 20:55:34 495

原创 Linux下Hadoop集群搭建（2.7.3）完全分布式

一.准备工作1.1台已经搭建好的Linux操作系统2.Hadoop及jdk的安装包（Hadoop是用Java开发的，所以Hadoop的编译及MapReduce的运行都需要使用JDK）3.上传文件到Linux的工具本人习惯用winscp开机自动启动sshd：chkconfig sshd on开机自动关闭防火墙：chkconfig iptables off（注意：必须开启sshd并关闭防火...

2018-04-08 13:13:44 728 1

不会水得鱼的博客