![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 64
It.explorer
这个作者很懒,什么都没留下…
展开
-
MapReduce在Yarn上执行流程
目录1、执行流程2、Yarn核心组件功能1、执行流程首先,Resource Manager会为每一个application(比如一个用户提交的MapReduce job)在NodeManager里面申请一个container,然后在该container里面启动一个Application Master。container在Yarn中是分配资源的容器(内存、cpu、硬盘等),它启动时便会相应启动一个JVM。然后,Application Master便陆续为application包含的每...原创 2021-09-28 22:09:03 · 666 阅读 · 0 评论 -
HDFS原理深入
一、HDFS概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容错。即使系统中有某些节点宕机,整体来说系统仍然可以持...原创 2021-09-28 21:52:22 · 183 阅读 · 0 评论 -
hadoop三大组件
1、介绍hadoop的组件hadoop有三个主要的核心组件:HDFS(分布式文件存储)、MAPREDUCE(分布式的计算)、YARN(资源调度),现在云计算包括大数据和虚拟化进行支撑。 在HADOOP(hdfs、MAPREDUCE、yarn)大数据处理技术框架,擅长离线数据分析. Zookeeper分布式协调服务基础组件,Hbase 分布式海量数据库,离线分析和在线业务处理。 Hive sql数据仓库工具,使用方便,功能丰富,基于MR延迟大,可以方便对数据的分析,并且数据的处理...原创 2021-09-28 20:23:43 · 11630 阅读 · 0 评论 -
MapReduce概述及MapReduce详细实现
目录一、概述二、定义三、MapReduce原理1、原理四、MR执行过程1、map阶段2、reudce阶段3、shuffle过程五、MapReduce默认输入处理类六、RecordReader七、Inputsplit一、概述1)MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.2)MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行..原创 2021-09-28 20:19:25 · 1479 阅读 · 0 评论 -
使用JAVA连接hadoop实现----MapReduce求出学生对应的成绩(学生总成绩)
这里学生信息表的顺序为:学生号,姓名,年龄,性别,班级学生成绩表的顺序为:学生号,科目,成绩;第一步:package com.shujia.hadoop;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import or原创 2021-09-23 21:16:04 · 1314 阅读 · 0 评论 -
使用hadoop-MapReduce统计文件中单词个数(每行一个单词)
第一步:写一个类用来统计文件中的个数。第二步:重写、覆盖mapreduce框架中map()和reduce()方法。第三步:用main()方法当做mapreduce程序的入口,用来构建mapreduce框架,在main()方法中创建一个job任务。第四步:使用maven的打包程序将代码打包成一个jar包。第五步:将这个jar包传入到hadoop中使用,代码为:hadoop jar jar包名 代码路径(hadoop jar hadoop-1.0-SNAPSHOT.jar com.shu原创 2021-09-22 20:16:57 · 873 阅读 · 0 评论 -
hadoop之2.x搭建
1、关闭防火墙 所有节点service iptables stopchkconfig iptables off2、设置免密钥在master中生成密钥文件ssh-keygen -t rsa一直回车将密钥文件同步到所有节点ssh-copy-id masterssh-copy-id node1ssh-copy-id node23、上传hadoop安装包 上传到msater的/usr/local/soft/hadoop-2.7.6.tar.gz4、解压tar -zxv...原创 2021-09-17 17:02:24 · 54 阅读 · 0 评论