初识Hadoop

最新推荐文章于 2021-03-30 16:46:13 发布

zhanghuali2019

最新推荐文章于 2021-03-30 16:46:13 发布

阅读量140

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanghuali0210/article/details/100109758

版权

一、预备知识

1、linux常用命令

2、Java编程基础

二、Hadoop的前世今生

各行各业的数据量越来越大，从GB级到TB级，再到PB级。增长的速度越来越快，数据的类型越来越多样，越来越多的数据集中在云端的服务器。各大企业，各个部门，都想从大量的数据中挖掘出有价值的东西，马云曾经说过“21实际核心的竞争是数据的竞争，谁拥有更多的数据谁就拥有未来”，数据越来越多之后，如何对大数据进行存储和分析。随着数据的增长，单机系统存在瓶颈：存储容量、读写效率、计算效率等。为啦解决这个问题，Google提出了三大技术来解决大规模莫的数据存储和处理，分别是：mapReduce、bigTable、GFS。这三个算得上是革命性的技术。他们的革命性变化如下：

（1）成本降低，能用PC机，就不用大型机和高端存储。

（2）软件容错硬件故障视为常态，同感软件保证可靠性。

（3）简化并行分布式计算，无需控制节点同步和数据交换

这三个技术虽然很好，但是Google并没有开放源代码，于是出现了一个模仿Google的大数据技术的开源实现，那就是hadoop。

三、Hadoop的功能与优势

1、hadoop是什么？

开源的分布式存储和分布式计算平台。属于apache的顶级目录

2、它为什么可以做分布式存储和分布式计算，是因为它包含如下两个部分：

（1）HDFS：分布式文件系统，存储海量数据

（2）mapReduce：并行处理框架，实现任务分解和调度

3、hadoop可以用来做什么？

可以用来搭建大型的仓库、PB数据的存储、处理、分析、统计等业务

4、hadoop的优势？

（1）高扩展

（2）低成本

（3）成熟的生态圈

四、Hadoop的生态系统及版本

Hadoop除了有mapReduce和HDFS之外，还有一些其他的开源工具，比如：

（1）HIVE。HIVE有什么用，比如写一个SQL语句，HIVE就会将SQL转化为hadoop任务去执行。降低了使用hadoop的门槛。

（2）HBASE。它是一个额存储结构化数据的分布式数据库，它与传统的数据库不一样，HBASE放弃了传统的事物特性，追求更高的扩展。和HDFS相比，HBASE提供了数据的随机读写和实时访问，实现对表数据的读写功能。

（3）zookeeper。动物管理员。监控hadoop集群里面的每个节点的状态，管理整个集群的配置，维护节点间数据的一致性等。

（4）hadoop的版本。1.2是一个稳定的版本。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。