Hadoop笔记

一 Hadoop生态简要介绍

1 Hadoop的组成

1.x 版本: HDFS(存) MapReduce(计算和资源调度)
2.x版本,3.x版本: HDFS(存)  MapReduce(计算)  Yarn(资源调度)

2 HDFS的架构

NameNode(nn) :是HDFS的大哥,管理和从存储所有真实数据的元数据信息(文件名,文件大小,创建时间等)
DataNode(dn):是HDFS的小弟,存储真实的数据,以快位单位 默认的块大小128m,比如一个200m的文件,分为2块:128m 72m
Second NameNode(2nn):是NameNode的秘书,辅助NameNode干活,分担NameNode工作,减轻NameaNode的压力

3 Yarn的架构

ResourceManager(rm):是Yarn的大哥,管理分配集群中所有的资源(来自于每个机器的资源)
NodeManager(nm):是Yarn的小弟,管理所在机器的资源
ApplicationMaster(am):每个Job都对于一个ApplicationMaster,主要负责Job的执行过程(资源申请,监控,容错等)
Container:对资源的抽象封装,防止资源被侵占

4 MapReduce的思想

Map(分):将数据分到多台机器进行计算
Reduce(合):将多台机器中运算的结果统一汇总

5 Hadoop的目录结构

bin :Hadoop的命令
sbin:Hadoop的脚本
etc:Hadoop的配置文件
share:Hadoop的jar包

6.Hadoop的官方案例

  • grep:通过制定好的正则,匹配输入文件中满足规则的单词并输出
cd /opt/module/hadoop-3.1.3
mkdir input
cp etc/hadoop/*.xml input
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z]+'
最后到output目录查看输出文件即可
  • wordcount :统计输入文件中的每个单词出现的次数
cd /opt/module/hadoop-3.1.3
mkdir wcinput
cd wcinput
touch wc.txt
vim wc.txt
输入你想输的单词  最后保存
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
最后到wcoutput目录查看输出文件即可
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值