HadoopCore
文章平均质量分 87
萧寒-秦月
这个作者很懒,什么都没留下…
展开
-
MapReduce 运行流程及WordCount运行流程详解
1、MapReduce 运行流程由上图可以看到MapReduce 执行下来主要包含这样几个步骤:1) 首先对输入数据源进行切片2) master 调度worker 执行map 任务3) worker 读取输入源片段4) worker 执行map 任务,将任务输出保存在本地5) master 调度worker 执行reduce 任务,reduce worker 读取map 任务的...原创 2018-07-29 21:18:29 · 1280 阅读 · 0 评论 -
Hadoop和Ambari 平台介绍
1、Hadoop概述Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为Lucene 的子项目Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。目前Hadoop 版本以Hadoop2.7.x 为主,我使用的是Hadoop2.7.3。...原创 2019-07-15 20:45:46 · 1127 阅读 · 0 评论 -
HDFS、组件和基本架构介绍
1、HDFS 是什么HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。由论文为GFS(Google File System)Google 文件系统启发,是Google GFS 的开源Java 实现。2、HDFS 组件角色 2.1 NameNodeHDFS 元数据管理者,管理NameSpace(文件系统命名空间),记录文件...原创 2019-07-15 21:09:36 · 6762 阅读 · 0 评论 -
HDFS读、写文件流程
1、读文件流程第一步:Client 向NameNode 发送数据请求后,寻找数据对应的数据块的位置信息。 第二步:NameNode 返回文件对应的数据块元数据信息,如所属机器、数据块的block_id、数据块的先后顺序等。 第三步:由Client 与DataNode 直接通信,读取各个block 数据块的信息。过程为并行读取,由客户端合并数据。2、写文件流程第一步: Cli...原创 2019-07-15 21:19:45 · 245 阅读 · 0 评论 -
HDFS常用shell命令
1、查看所有命令:hdfs dfs2、查看某目录下文件列表:hdfs dfs -ls /tmp3、查看某文本文件的内容:hdfs dfs -cat /tmp/index.html4、在hdfs 中创建job 目录:hdfs dfs –mkdir /tmp/info(递归创建目录:hdfs dfs –mkdir -p /tmp/work/info)5、删除job目录:...原创 2019-07-15 22:04:27 · 377 阅读 · 0 评论 -
使用MapReduce实现WordCount
1、MapReduce 开发流程搭建开发环境,参考HDFS 环境搭建,基本一致 基于MapReduce 框架编写代码 编译打包,将源代码和依赖jar 包打成一个包 上传至运行环境 运行hadoop jar 命令,现已由yarn jar 替代,建议使用新命令提交执行具体提交命令为:yarn jar testhdfs-jar-with-dependencies.jar com.tia...原创 2019-07-16 20:08:47 · 4141 阅读 · 0 评论 -
Yarn(分布式资源管理与任务调度框架)介绍
1、Yarn 是什么Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者) 作用:资源管理与任务调度2、架构设计Yarn 设计的核心思想是将JobTracker 的两个主要职责:资源管理和任务调度管理,分别交给两个角色负责。一个是全局的ResourceManager,一个是每个应用中唯一的ApplicationMas...原创 2019-07-16 22:06:02 · 1264 阅读 · 0 评论