大数据技术之Hadoop了解篇

最新推荐文章于 2024-03-07 17:39:56 发布

亿旅

最新推荐文章于 2024-03-07 17:39:56 发布

阅读量190

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/yi_shi_tou/article/details/108928956

版权

系列文章目录

Hadoop了解篇
Hadoop之HDFS
Hadoop之MapReduce
Hadoop之Yarn
Hadoop之优化&新特性

随着数据量的不断增加，对于数据的存储的要求就越来越高，我们如何能够解决大量的数据的存储，并且方便海量数据的分析计算呢？本文讲述的就是一款解决海量数据存储和计算分析的框架—Hadoop

Big Data：指的是在一定范围内无法用常规软件工具进行捕捉、管理和处理的数据集合。
通常数据达到TB、PB、EB级别的数据我们用常规方法就很难处理了。

1）大量：人类生产的所有印刷材料的数据量是约200PB；

2）高速：2019年双十一，天喵交易额1分36秒超100亿，可以想象这一分半所产生的交易数据。举个例子：100元产生1K的交易数据，100亿产生的数据接近100G，每秒产生的数据约1G；

3）多样：比如日常我们发朋友圈，既有文字，又有图片、视频、地理位置信息等；

4）低价值密度：在悬疑剧中，我们调监控往往只是想找某一分钟的画面，可我们却往往得看好几个小时的视频才能找到。因而在当下大数据的背景下，如何快速找出有价值的数据成为待解决的难题。

平台开发

平台搭建/集群监控

数据仓库开发

ETL（数据清洗）、数据分析、数据仓库建模

实时开发

实时指标分析，性能调优

数据挖掘开发

算法、推荐系统、用户画像

可视化开发

数据可视化、前端

1）是Apache基金会所开发的分布式系统基础框架
2）主要解决海量数据的存储和海量数据的分析计算问题

1）高可靠性：底层维护多个副本
2）高扩展性：在集群间分配任务数据，可方便的扩充数以千计的节点
3）高效性：计算是在MapReduce的思想下，Hadoop是并行工作的，加快任务处理速度
4）高容错性：能够自动将失败的任务重新分配

Hadoop2.X版本：

第一部分抛出问题，面对海量数据，我们如何高效存储及分析计算？
第二部分解决问题，面对海量数据，我们引入分布式数据存储及计算数据的框架—Hadoop，对于Hadoop各组件的功能实现原理将在后续章节中会给大家讲述。

关注