Hadoop基础篇的笔记

最新推荐文章于 2024-04-26 11:43:32 发布

wyBluewind

最新推荐文章于 2024-04-26 11:43:32 发布

阅读量412

点赞数

分类专栏： Hadoop 笔记文章标签： hadoop 笔记 mapreduce HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyBluewind/article/details/49386557

版权

笔记同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

学习慕课网《Hadoop大数据平台架构与实践–基础篇》教程的笔记
本课程简单的介绍了Hadoop使用和基本工具和工作原理。

1-1 课程简介

《Hadoop开发指南》课本。

1-2 Hadoop前世今生

Google大数据的技术：MapReduce，BigTable，GFS。

1-3 Hadoop功能和优势

开源+分布式存储+分布式云计算
Hadoop开发和运维人才

1-4 Hadoop生态系统和版本

Hive：把SQL翻译成任务
HBase：更高的扩展
zookeeper：监控集群的工具

2-1 获取Linux 操作系统

云主机：utask

2-2 安装JDK

2-3 配置Hadoop

配置4个配置文件，然后格式化。
安装的过程可参考此视频

2-4 安装小结

3-1 基本概念

块（Block）：
NameNode：是管理节点，存放文件的元数据包括1）文件与数据块的映射表，2）数据块与数据节点的映射表。
DataNode：存放数据块的。
SecondaryNameNode：

3-2 数据管理策略

心跳检测：DataNode和NameNode直接的联系，DataNode每隔一定时间会向NameNode报告自己的状况，如网络状态，是否可访问。

3-3 HDFS文件读写流程

3-4 HDFS特点

数据冗余，硬件容错
流数据访问，一次写入，多次读取。
适合大文件。

3-5 HDFS使用

一些命令的使用，如put，get，mkdir，格式：hadoop fs -ls/-mkdir/get/put

4-1 MapReduce原理

并行计算框架。

分而治之，一个大任务分成多个小的子任务（Map），并行执行后合并返回结果（Reduce）。

4-2 MapReduce运行流程

Job&Task：一个Job分成多个Task，Task分成MapTasker和ReduceTasker。
JobTracker：1. 作业调度，2.分配任务，监控任务的执行进度。3. 监控TaskTracker的状态。
TaskTracker：执行任务。

MapReduce容错机制：1）重复执行，如果4次还是失败，就放弃。2）推测执行。

5-1,2,3 WordCount单词统计（上，中，下）

这是个利用Hadoop的小例子，可以参考。

5-4,5 利用MapReduce进行排序（上，下）

5-6 课程总结

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础篇的笔记

学习慕课网《Hadoop大数据平台架构与实践–基础篇》教程的笔记本课程简单的介绍了Hadoop使用和基本工具和工作原理。1-1 课程简介《Hadoop开发指南》课本。1-2 Hadoop前世今生Google大数据的技术：MapReduce，BigTable，GFS。1-3 Hadoop功能和优势开源+分布式存储+分布式云计算 Hadoop开发和运维人才1-4 Hadoop生态系统和版本Hive
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。