大数据分布式:数据导论、大数据诞生(分布式处理技术)、大数据概述(特征)、大数据软件生态(技术框架及负责场景)、Apache Hadoop概述(框架、Hadoop的功能、发展、发行版本)

文章介绍了大数据的概念,强调其价值在于对海量数据的深入分析,以及大数据技术栈的诞生和发展。重点讲述了ApacheHadoop在大数据体系中的作用,包括HDFS、MapReduce和YARN等组件,以及Hadoop如何解决大规模数据存储和计算的问题。此外,还提到了其他相关技术如HBase、Spark、Flink等在大数据生态中的角色。
摘要由CSDN通过智能技术生成

版本说明

当前版本号[20230506]。

版本修改说明
20230506初版

知识总览图

image-20230506191122763

目录

第一章 大数据分布式

数据导论

数据是什么

数据:一种可以被鉴别的对客观事件进行记录的符号。

简单来说就是:**对人类的行为及产生的事件的一种记录。**包括我们的日常活动所产生的信息记录都是数据。

数据的价值

•对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律

•比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。

大数据技术栈

对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系

大数据诞生

大数据技术体系

大数据的诞生和信息化以及互联网的发展是密切相关的。

​ 早期的计算机(上世纪70年代之前)

image-20230506114424600

​ 大多数是相互独立的,各自处理各自的数据

​ 上世纪70年代后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。

image-20230506114534677

​ 但多数是军事、科研等用途。

​ 上世纪90年代左后,全球互联的互联网出现。

image-20230506114612725

​ 个人、企业均可参与其中,真正逐步的实现了全球互联。

​ 在2000年后,互联网上的商业行为剧增

image-20230506114650323

​ 现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步。

image-20230506114737041

​ 在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增

​ 剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。

image-20230506114822461

​ 在这个过程中,分布式处理技术诞生了。

分布式处理技术

​ 在数据量巨大的基础下,以服务器的数量来解决大规模数据处理问题。

image-20230506114924706

逐步演化:(存->用->传)

大规模服务器集群下的大规模数据存储

—>大规模服务器集群下的大规模数据计算

—>大规模服务器集群下的大规模数据传输技术

image-20230506115204422

2008年之前,这些在当时较为”高端”的分布式技术基本上还处于大企业内部专用且不够成熟。

image-20230506115236867

2008年,Apache Hadoop开源,广大企业拥有了成熟的、开源的、分布式数据处理解决方案。

Apache Hadoop对大数据体系的意义

Apache Hadoop 是一款开源的分布式处理技术栈

为业界提供了

•基于Hadoop HDFS的:分布式数据存储技术

•基于Hadoop MapReduce的:分布式数据计算技术

•基于Hadoop YARN的:分布式资源调度技术

image-20230506115339830

Apache Hadoop的出现具有非常重大的意义:

•第一款获得业界普遍认可开源分布式解决方案

•让各类企业都有可用的企业级开源分布式解决方案

•一定程度上催生出了众多的大数据体系技术栈

•从Hadoop开始(2008年左右)大数据开始蓬勃发展

大数据概述

大数据及其特征和核心工作内容

什么是大数据

大数据的出现,本质上是为了解决海量数据的处理难题

大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。【狭义的、技术思维的】

而广义的是数字化时代。

image-20230506142133719

简单概括:

  • 狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系
  • 广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能
大数据的特征

大数据有5个主要特征,称之为:5V特性,分别是:体积、种类、价值、速度、质量

image-20230506142608911

​ 从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

•存储:妥善保存海量待处理数据

•计算:完成海量数据的价值挖掘

•传输:协助各个环节的数据传输

image-20230506143033033

大数据软件生态

大数据技术框架及其负责的场景

数据主体上分成如下三大核心工作体系。而大数据软件生态,也基本上围绕着三大工作体系。

image-20230506144854134

数据存储
  • Apache Hadoop - HDFS

image-20230506144957346

Apache Hadoop框架内的组件HDFS是大数据体系中使用

最为广泛的分布式存储技术

  • Apache HBase

image-20230506145036691

Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术

HBase是基于HDFS之上构建的。

  • Apache KUDU

image-20230506145121563

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件

除此以外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

数据计算
  • Apache Hadoop - MapReduce

image-20230506145248841

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎

对大数据的发展做出了卓越的贡献

  • Apache Hive

image-20230506145324283

Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop

的MapReduce技术

Apache Hive至今仍活跃在大数据一线,被许多公司使用。

  • Apache Spark

image-20230506145438100

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

是大数据体系中的明星计算产品

  • Apache Flink

image-20230506145514412

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。

特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

数据传输
  • Apache Kafka

image-20230506145557304

Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品

  • Apache Pulsar

image-20230506145623590

Apache Pulsar同样是一款分布式的消息系统。

在大数据领域同样有非常多的使用者。

  • Apache Flume

image-20230506145654100

Apache Flume是一款流式数据采集工具,可以从非常多的数据源中

完成数据采集传输的任务。

  • Apache Sqoop

image-20230506145718520

Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库

之间进行数据传输。

Apache Hadoop概述

Apache Hadoop框架

Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

•分布式数据存储

•分布式数据计算

•分布式资源调度

为一体的整体解决方案。

image-20230506145903899

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

Hadoop的功能

通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:

image-20230506150007039

所以:Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

Hadoop的发展

Hadoop创始人:Doug Cutting

Hadoop起源于Apache Lucene子项目:Nutch

Nutch的设计目标是构建一个大型的全网搜索引擎。

遇到瓶颈:如何解决数十亿网页的存储和索引问题

•发展受到Google三篇著名的论文影响

  • 《The Google file system》:谷歌分布式文件系统GFS
  • 《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
  • 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

image-20230506150231085

Hadoop发行版本

image-20230506150316854

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放下华子我只抽RuiKe5

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值