Hadoop 为分布式搭建练习

最新推荐文章于 2024-01-19 21:46:49 发布

le8383

最新推荐文章于 2024-01-19 21:46:49 发布

阅读量1.1k

点赞数 1

分类专栏： linux hadoop 文章标签： centos 分布式文件系统虚拟机 hadoop linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhle321/article/details/78921960

版权

本文是一篇为期8天的Hadoop分布式系统搭建实践课程，涵盖从Hadoop介绍、Linux环境准备、伪分布环境搭建到集群管理、HDFS、MapReduce、HBase和Hive等组件的详细讲解。通过学习，读者将掌握Hadoop的安装配置、SSH免密码登录以及实际项目中的应用。

摘要由CSDN通过智能技术生成

课程时长：8天

Ø 第一天

l Hadoop简介(***了解***）

l Linux环境准备（***熟练掌握***）

l 搭建Hadoop的伪分布环境（***熟练掌握***）

l Hadoop环境测试（***熟练掌握***）

l SSH免密码登录的配置和原理（***理解***）

Ø 第二天

l 分布式文件系统与HDFS（***了解****）

l HDFS体系结构与基本概念（***了解****）

l HDFS的shell操作（***了解****）

l java接口及常用api（***熟练掌握****）

l HADOOP的RPC机制（***理解清楚****）

l HDFS源码分析（***熟练掌握****）

l 远程debug（***熟练掌握****）

Ø 第三天

l MapReduce原理（***理解掌握***）

l MapReduce执行过程（****理解掌握***）

l 数据类型与格式（***熟练掌握***）

l Writable接口与序列化机制（***了解并理解***）

l MapReduce的执行过程源码分析（***加深扩展***）

Ø 第四天

l Partitioner编程（***熟练掌握***）

l 自定义排序编程（***熟练掌握****）

l Combiner编程（****熟练掌握*****）

l 常见的MapReduce算法（****了解&理解****）

l Mapreduce原理及源码分析（***加深扩展****）

Ø 第五天

l Hadoop集群的搭建过程（***掌握****）

l 集群管理的常用命令（****了解****）

l 集群的副本管理机制（***了解***）

l 集群的监控管理（***理解****）

l sqoop框架（***掌握***）

l pig框架（***了解***）

l Zookeeper（****掌握****）

Ø 第六天

l HBASE:

n HBASE基础知识(***了解****）

n HBASE的伪分布的搭建（****掌握****）

n HBASE Shell（****掌握****）

n HBASE的Java客户端（****了解*****）

n HBASE的集群的搭建(****加深拓展*****)

n HBASE的表设计(*****加深拓展******)

n HBASE的底层存储模型(******加深拓展*******)

l Hive:

n Hive简介(***了解****）

n Hive的安装与管理（****掌握****）

n HiveQL数据类型，表以及表的操作（****掌握****）

n HiveQL查询数据（****掌握****）

n Hive的Java客户端(***了解****）

n Hive的自定义函数UDF(******加深拓展*******)

Ø 第七天

l Storm：

n Storm 简介(***了解****）

n Storm 体系结构(***了解****）

n Storm topology supovisor worker（****掌握****）

n Storm 安装部署（****掌握****）

n Storm 常用命令(***了解****）

n Storm 编程接口(******加深拓展*******)

n Storm 运行机制(******加深拓展*******)

l Kafka

n Kafka简介(***了解****）

n Kafka架构（****理解掌握****）

n Kafka应用编程指南(******加深拓展*******)

Ø 第八天

l Hadoop项目实践（电信运营商流量经营系统）（*****项目练习****)

Hadoop Day1

1.Hadoop简介(**了解*)

Ø hadoop是什么？

What Is Apache Hadoop?

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

Hadoop是开源的，可靠的，可扩展的，分布式的运算存储系统。

备注：用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

Ø Hadoop能解决什么问题？（***记住***）

l 海量数据的存储（HDFS）

l 海量数据的分析（MapReduce）

l 资源管理调度（YARN）

Ø hadoop来源与历史（****了解***）

l Hapdoop是Google的集群系统的开源实现

-Google集群系统:

GFS(Google File System) 、MapReduce、BigTable

-Hadoop主要由HDFS(Hadoop Distributed File System即hadoop分布式文件系统）、MapReduce和Hbase组成。

l Hadoop的最初是为了解决Nutch的海量数据爬取和存储需要。

l Hadoop在2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

Ø hadoop具体能干什么（***知道****）

hadoop擅长日志分析

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。