大数据-Hadoop
文章平均质量分 84
rong_code
这个作者很懒,什么都没留下…
展开
-
Windows 下配置hadoop
0.自己编译安装步骤在这里,有英文版本链接:《英文传送门》。 自己编译尝试后不成功,换为下面使用别人编译好的版本的方法。参考博客:《初学hadoop,windows下安装》 1.下载JDK,并设置JAVA_HOME。(使用不带空格的路径,比如Program Files,将在后面的配置中报错!) 假设JAVA_HOME路径为C:\Java\jdk1.8.0_73 2.下载ha...原创 2020-03-28 18:04:17 · 407 阅读 · 0 评论 -
大数据01---Linux环境安装
第一部分:Linux环境安装 第一步、配置Vmware NAT网络 一、Vmware网络模式介绍 参考:http://blog.csdn.net/collection4u/article/details/14127671 二、Vmware上安装Linux系统 1、 文件菜单选择新建虚拟机 2、 选择经典类型安装,下一步。 3、 选择稍后安装操作系统,下一步。 4、 选择Linux系统,版本选择Ce...原创 2018-12-26 19:41:43 · 293 阅读 · 0 评论 -
大数据02---Hadoop集群环境搭建
一、修改Hostname 命令:[root@hadoop01 ~] vi /etc/sysconfig/network 打开文件后,(每个虚拟机主机名不同) NETWORKING=yes #使用网络 HOSTNAME=hadoop01 #设置主机名 1.赋予虚拟机ip地址 根目录下 执行命令: vi reset_ip.sh me=$(cat /etc/udev/rul...原创 2018-12-26 20:55:34 · 530 阅读 · 0 评论 -
大数据03---HDFS之那么namenode管理元数据机制
一、NameNode启动时如何维护元数据: 1、概念介绍: Edits文件:NameNode在本地操作hdfs系统的文件都会保存在Edits日志文件中。也就是说当文件系统中的任何元数据产生操作时,都会记录在Edits日志文件中。eg:在HDFS上创建一个文件,NameNode就会在Edits中插入一条记录。同样如果修改或者删除等操作,也会在Edits日志文件中新增一条数据。 FsImage映像...原创 2018-12-28 19:16:54 · 268 阅读 · 0 评论 -
大数据04---Hadoop windowns intelij 跑MRWordCount
一、软件环境 我使用的软件版本如下: Intellij Idea 2017.1 Maven 3.3.9 Hadoop分布式环境 二、创建maven工程 打开Idea,file->new->Project,左侧面板选择maven工程。(勾选) 设置工程存储路径,下一步。 三、添加maven依赖 在pom.xml添加依赖,对于hadoop 2.7.3版本的had...原创 2018-12-28 20:08:21 · 261 阅读 · 0 评论 -
大数据06-MapTask、Shuffle、ReduceTask,yarn工作机制
一、MapReduce整个工作流程: 二、 yarn基本架构和工作机制 一、yarn基本架构 (0)Mr 程序提交到客户端所在的节点。 (1)Yarnrunner 向 Resourcemanager 申请一个 Application。 (2)rm 将该应用程序的资源路径返回给 yarnrunner。 (3)该程序将运行所需资源提交到 HDFS 上。 (4)程序资源...原创 2019-01-03 18:22:51 · 300 阅读 · 0 评论 -
大数据08-reduce task个数到底和哪些因素有关
1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目,但是不能决定总的reduce数目。 conf.setNumReduceTasks(4);JobConf对象的这个方法可以用来设定...原创 2019-01-03 18:40:17 · 2028 阅读 · 1 评论 -
大数据09--MapReduce习题~统计单词数量
一、利用MapReduce计算单词 WordcountDriver ** * 相当于一个yarn集群的客户端 * 需要在此封装我们的mr程序的相关运行参数,指定jar包 * 最后提交给yarn */ public class WordcountDriver { public static void main(String[] args) throws Exception {...原创 2019-01-03 18:54:02 · 660 阅读 · 0 评论 -
大数据05--图示wordcount shuffle过程
本文主要以wordcount为例详细阐述shuffle的实现过程 我们知道,HDFS里的文件是分块存放在Datanode上面的,而我们写的mapper程序也是跑在各个节点上的。这里就涉及到一个问题,哪一个节点上的mapper读哪一些节点上的文件块呢?hadoop会自动将这个文件分片(split),得到好多split,这每一个split放到一个节点的一个mapper里面去读。然后在每一台有ma...原创 2019-01-02 20:57:53 · 238 阅读 · 0 评论