大数据技术之Hadoop了解篇

系列文章目录

Hadoop了解篇
Hadoop之HDFS
Hadoop之MapReduce
Hadoop之Yarn
Hadoop之优化&新特性



前言

随着数据量的不断增加,对于数据的存储的要求就越来越高,我们如何能够解决大量的数据的存储,并且方便海量数据的分析计算呢?本文讲述的就是一款解决海量数据存储和计算分析的框架—Hadoop


一、什么叫作大数据

1.大数据概念

Big Data:指的是在一定范围内无法用常规软件工具进行捕捉、管理和处理的数据集合。
通常数据达到TB、PB、EB级别的数据我们用常规方法就很难处理了。

2.大数据的特点

1)大量:人类生产的所有印刷材料的数据量是约200PB;

2)高速:2019年双十一,天喵交易额1分36秒超100亿,可以想象这一分半所产生的交易数据。举个例子:100元产生1K的交易数据,100亿产生的数据接近100G,每秒产生的数据约1G;

3)多样:比如日常我们发朋友圈,既有文字,又有图片、视频、地理位置信息等;

4)低价值密度:在悬疑剧中,我们调监控往往只是想找某一分钟的画面,可我们却往往得看好几个小时的视频才能找到。因而在当下大数据的背景下,如何快速找出有价值的数据成为待解决的难题。

3.大数据开发的架构

平台开发

平台搭建/集群监控

数据仓库开发

ETL(数据清洗)、数据分析、数据仓库建模

实时开发

实时指标分析,性能调优

数据挖掘开发

算法、推荐系统、用户画像

可视化开发

数据可视化、前端

二、Hdoop框架

1.Hadoop是什么?

1)是Apache基金会所开发的分布式系统基础框架
2)主要解决海量数据的存储和海量数据的分析计算问题

2.Hadoop的优势

1)高可靠性:底层维护多个副本
2)高扩展性:在集群间分配任务数据,可方便的扩充数以千计的节点
3)高效性:计算是在MapReduce的思想下,Hadoop是并行工作的,加快任务处理速度
4)高容错性:能够自动将失败的任务重新分配

3.Hadoop组成

Hadoop2.X版本:

组成作用
MapReduce计算
Yarn资源调度
HDFS数据存储
Common辅助工具

总结

第一部分抛出问题,面对海量数据,我们如何高效存储及分析计算?
第二部分解决问题,面对海量数据,我们引入分布式数据存储及计算数据的框架—Hadoop,对于Hadoop各组件的功能实现原理将在后续章节中会给大家讲述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值