如何开始学习 Hadoop？

最新推荐文章于 2023-03-16 14:15:54 发布

yalin7076

最新推荐文章于 2023-03-16 14:15:54 发布

阅读量347

点赞数

分类专栏：大数据 Java架构与大数据交流圈子文章标签： Hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yalin7076/article/details/85223396

版权

Java架构与大数据交流圈子同时被 2 个专栏收录

67 篇文章 0 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

作者：美国队长，大数据专家，精通Hadoop生态相关平台的搭建调优，对底层的源代码有一定的研究。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，他从0.x版本到现在的3.0版本，经历了各种变化。但是变化中有不变的是他的主要功能就是Hdfs（分布式文件存储），Mapreduce（分布式并行计算框架）。

其中，Hdfs主要是用来进行文件的存储，他涉及文件存储不同压缩方式，文件存储在各个节点是否均衡等。

Mapreduce用来并行计算数据，他通过简单的Mapper，combine，parttion，reducer的过程对批量的数据进行了格式化，排序等处理，他涉及mapper个数，重写combine，partition，reducer的个数等。

我们要对Hadoop有个初步的认识，才能为我们进一步研究别的大数据框架做好准备。

先谈一下如何才能进行hadoop入门——

学会一门语言最好学习java，因为hadoop框架大部分是java编写的。然后可以深入了解一下java NIO，多线程编程，jvm的原理等。
系统层面学会使用linux的基本shell命令，比如vi、cat、grep、scp等，因为你学习hadoop得首先会安装hadoop。
到网上观看一些免费的hadoop培训视频，很多网上的培训老师讲的还是很不错的，我们可以参照他们的视频从本地的hadoop Mapreduce的环境搭建，然后尝试编写mapreduce进行打包运行。
当你对hadoop应用编程层面没有疑问的时候，可以尝试去深入了解mapreduce的核心思想，尤其是map，shuffle，join，reduce等。

再总结一下Hadoop入门的学习中可能遇到的问题——

1.常用Mapreduce进行数据处理的场景包括哪些？

- 文件统计行数

- 抽取文件中每行特定的字符或者对某个字段进行规整

- 对结构化文件的特定字段进行排序

- 文件之间进行关联

- 统计文件包含特定字符的个数等

2.在Hadoop使用中，应该如何诊断和分析故障？

对于新手而言，可以从hadoop区分为hdfs mapreduce两块去对异常进行分类，然后可以百度看一下解决方式。当对hadoop有一定了解之后，可以通过异常的提示，结合自己对框架本身的理解去尝试定位问题。

需要更多大数据开发相关学习资料（Hadoop，spark，kafka，MapReduce，scala，，推荐算法，实时交易监控系统，用户分析行为，推荐系统）加群免费获取：792133408）

关注微信公众号：大数据孵化基地
回复【实时交易监控系统】或者【1】获取精彩视频。
回复【推荐系统理论与实战】或者【2】获取精彩视频。
每天定期分享大数据精彩文章。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何开始学习 Hadoop？

作者：美国队长，大数据专家，精通Hadoop生态相关平台的搭建调优，对底层的源代码有一定的研究。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构，他从0.x版本到现在的3.0版本，经历了各种变化。但是变化中有不变的是他的主要功能就是Hdfs（分布式文件存储），Mapreduce（分布式并行计算框架）。其中，Hdfs主要是用来进行文件的存储，他涉及文件存储不同压缩...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。