如何开始学习 Hadoop?

作者:美国队长,大数据专家,精通Hadoop生态相关平台的搭建调优,对底层的源代码有一定的研究。

 

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,他从0.x版本到现在的3.0版本,经历了各种变化。但是变化中有不变的是他的主要功能就是Hdfs(分布式文件存储) ,Mapreduce(分布式并行计算框架)。

其中,Hdfs主要是用来进行文件的存储,他涉及文件存储不同压缩方式,文件存储在各个节点是否均衡等。

Mapreduce用来并行计算数据,他通过简单的Mapper,combine,parttion,reducer的过程对批量的数据进行了格式化,排序等处理,他涉及mapper个数,重写combine,partition,reducer的个数等。

我们要对Hadoop有个初步的认识,才能为我们进一步研究别的大数据框架做好准备。

 

先谈一下如何才能进行hadoop入门——

  • 学会一门语言最好学习java,因为hadoop框架大部分是java编写的。然后可以深入了解一下java NIO,多线程编程,jvm的原理等。

  • 系统层面学会使用linux的基本shell命令,比如vi、cat、grep、scp等,因为你学习hadoop得首先会安装hadoop。

  • 到网上观看一些免费的hadoop培训视频,很多网上的培训老师讲的还是很不错的,我们可以参照他们的视频从本地的hadoop Mapreduce的环境搭建,然后尝试编写mapreduce进行打包运行。

  • 当你对hadoop应用编程层面没有疑问的时候,可以尝试去深入了解mapreduce的核心思想,尤其是map,shuffle,join,reduce等。

 

再总结一下Hadoop入门的学习中可能遇到的问题——

 

1.常用Mapreduce进行数据处理的场景包括哪些?

- 文件统计行数

- 抽取文件中每行特定的字符或者对某个字段进行规整

- 对结构化文件的特定字段进行排序

- 文件之间进行关联

- 统计文件包含特定字符的个数等

 

2.在Hadoop使用中,应该如何诊断和分析故障?

对于新手而言,可以从hadoop区分为hdfs mapreduce两块去对异常进行分类,然后可以百度看一下解决方式。当对hadoop有一定了解之后,可以通过异常的提示,结合自己对框架本身的理解去尝试定位问题。

需要更多大数据开发相关学习资料(Hadoop,spark,kafka,MapReduce,scala,,推荐算法,实时交易监控系统,用户分析行为,推荐系统)加群免费获取:792133408)


关注微信公众号:大数据孵化基地 
回复 【实时交易监控系统】或者【1】获取精彩视频。
回复【推荐系统理论与实战】或者【2】获取精彩视频。
每天定期分享大数据精彩文章。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值