hadoop 复习资料

大家好,我是曜耀,今天给大家带来的是hadoop系列的一些复习资料。

废话不说,上才艺。

hdfs 分布式文件系统
mapreduce  大数据离线数据处理框架
yarn  统一资源管理和调度平台
hive  数据分析
sqoop   数据导入导出
hbase  大数据存储 非关系型数据库
flume  日志采集系统
spark   实时流式数据计算框架


hdfs
架构原理    配置    使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log

5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X  端口号是8020   1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh  JAVA_HOME HADOOP_HOME
core-site.xml  dfs.default.name、
hdfs-site.xml  dfs.replication  dfs.name.dir dfs.data.dir
slaver 
8.hdfs的命令
创建目录 Hadoop fs -mkdir
删除目录  hadoop fs -rmdir 
列出文件或目录  hadoop fs -ls
上传/覆盖文件   hadoop fs -put (-f) 本地文件 上传路径   copyFromLocal
下载文件  hadoop fs -get/copyToLocal 文件地址 本地地址 
查看文件   hadoop fs -cat 
删除文件  hadoop fs -rm 
移动文件  hadoop fs -mv  


mapreduce
1.MapReduce执行流程  WordCount
2.Partitioner 和combinner
partitioner 是分组,将要清洗的数据按照key来对其进行分组,相同key的放在同一个输出文件中
combiner 是在进入reduce之前,先行合并一次,提高计算效率

yarn
1.yarn中有什么组件,各有什么作用
resourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器  负责管理各个节点的container,以及开启map task 和reduce task
2.yarn的配置文件以及配置内容
mapred-site.xml   MapReduce的计算框架       mapreduce.framework.name
yarn-site.xml  resoursemanage 和 nodemanager 的节点地址
3.yarn的执行流程

hbase 
1.nosql 和mysql的区别
2.hbase的表结构
表名,行键,列族,列,时间戳
3.hbase 系统架构
4.hbase基础命令
1.列出所有表   list
2.创建表     create '表名','列族'...
3.添加数据    put '表名','行键','列族:列','值'
4.查询单行数据   get '表名','行键'
5.查询所有数据    scan '表名'
6.清空表   truncate '表名'

flume
1.flume三个组件以及作用
source   负责从源数据接收event 或者自己产生event,传递到下一层
channel   负责将event传递到sink,将数据缓存在管道中,保证数据的传输速率恒定
sink   负责将event传递到目的端,并且将event从channel中移除

sqoop
数据导出命令  
sqoop export --connect mysql连接 --username 数据库用户名 --password --数据库密码 --table mysql中的表 --export-dir 导出的文件地址 --fields-terminated-by 分割方式 --m 1
 
hive
数据库操作
创建数据库    create database 数据库名;
删除数据库    drop database 数据库名;
使用数据库   use 数据库名;
查看所有数据库  show databases;

表结构
创建表     create table 表名(字段名 字段类型,....) row format delimited fields terminated by 分隔符;
删除表     drop table 表名;

表内容
添加数据  load data inpath '文件路径(必须是hdfs上的)' into table 表名;
查询
1.查询所有   
select * from 表;
2.查询固定的字段
select ziduanming, 字段名2  from 表名;
3.按照条件查询
select * from 表 where 条件;
4.排序   升序 asc  降序 desc
select * from biao order by id asc;
5.分组聚合
sum 求和   count 计数  max 最大值   min 最小值  avg 平均值
select * from student group by sex; 按照xx进行统计就是group by xx  group by 后边的条件跟上的是having
6.多表查询   多表查询的条件是 两个表中的字段内容相等
select ziduan from t1, t2 where t1.ziduan1 = t2.ziduan1
select 字段 from t1 join t2 on t1.zidaun1 = t2.ziduan1
left join :以左边为主表,如果右边表的数据不存在,则填充null
right join :以右边为主表,如果左边表的数据不存在,则填充null
7.分组排序  distribute by   sort by
select * from biao distribute by sex sort by height;男女生分别按照身高排序
8.CTAS 创建新表
create table xx row format delimited fields terminated by '' as select ......
9.查询表结构  格式化查询
desc formatted biao;


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值