课程时长:8天
Ø 第一天
l Hadoop简介(***了解***)
l Linux环境准备(***熟练掌握***)
l 搭建Hadoop的伪分布环境(***熟练掌握***)
l Hadoop环境测试(***熟练掌握***)
l SSH免密码登录的配置和原理(***理解***)
Ø 第二天
l 分布式文件系统与HDFS(***了解****)
l HDFS体系结构与基本概念(***了解****)
l HDFS的shell操作(***了解****)
l java接口及常用api(***熟练掌握****)
l HADOOP的RPC机制(***理解清楚****)
l HDFS源码分析(***熟练掌握****)
l 远程debug(***熟练掌握****)
Ø 第三天
l MapReduce原理(***理解掌握***)
l MapReduce执行过程(****理解掌握***)
l 数据类型与格式(***熟练掌握***)
l Writable接口与序列化机制(***了解并理解***)
l MapReduce的执行过程源码分析(***加深扩展***)
Ø 第四天
l Partitioner编程(***熟练掌握***)
l 自定义排序编程(***熟练掌握****)
l Combiner编程(****熟练掌握*****)
l 常见的MapReduce算法(****了解&理解****)
l Mapreduce原理及源码分析(***加深扩展****)
Ø 第五天
l Hadoop集群的搭建过程(***掌握****)
l 集群管理的常用命令(****了解****)
l 集群的副本管理机制(***了解***)
l 集群的监控管理(***理解****)
l sqoop框架(***掌握***)
l pig框架(***了解***)
l Zookeeper(****掌握****)
Ø 第六天
l HBASE:
n HBASE基础知识(***了解****)
n HBASE的伪分布的搭建(****掌握****)
n HBASE Shell(****掌握****)
n HBASE的Java客户端(****了解*****)
n HBASE的集群的搭建(****加深拓展*****)
n HBASE的表设计(*****加深拓展******)
n HBASE的底层存储模型(******加深拓展*******)
l Hive:
n Hive简介(***了解****)
n Hive的安装与管理(****掌握****)
n HiveQL数据类型,表以及表的操作(****掌握****)
n HiveQL查询数据(****掌握****)
n Hive的Java客户端(***了解****)
n Hive的自定义函数UDF(******加深拓展*******)
Ø 第七天
l Storm:
n Storm 简介(***了解****)
n Storm 体系结构(***了解****)
n Storm topology supovisor worker(****掌握****)
n Storm 安装部署(****掌握****)
n Storm 常用命令(***了解****)
n Storm 编程接口(******加深拓展*******)
n Storm 运行机制(******加深拓展*******)
l Kafka
n Kafka简介(***了解****)
n Kafka架构(****理解掌握****)
n Kafka应用编程指南(******加深拓展*******)
Ø 第八天
l Hadoop项目实践(电信运营商流量经营系统)(*****项目练习****)
Hadoop Day1
1.Hadoop简介(****了解***)
Ø hadoop是什么?
What Is Apache Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
Hadoop是开源的,可靠的,可扩展的,分布式的运算存储系统。
备注:用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
Ø Hadoop能解决什么问题?(***记住***)
l 海量数据的存储(HDFS)
l 海量数据的分析(MapReduce)
l 资源管理调度(YARN)
Ø hadoop来源与历史(****了解***)
l Hapdoop是Google的集群系统的开源实现
-Google集群系统:
GFS(Google File System) 、MapReduce、BigTable
-Hadoop主要由HDFS(Hadoop Distributed File System即hadoop分布式文件系统)、MapReduce和Hbase组成。
l Hadoop的最初是为了解决Nutch的海量数据爬取和存储需要。
l Hadoop在2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
Ø hadoop具体能干什么(***知道****)
hadoop擅长日志分析