大数据笔记

上课不要睡觉了

已于 2022-10-14 08:15:44 修改

阅读量5.2k

点赞数

分类专栏：大数据文章标签：大数据

于 2022-10-09 21:21:06 首次发布

本文链接：https://blog.csdn.net/xqc_kkk/article/details/127234290

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

大数据笔记

一、大数据时代

根据IBM前首席执行官郭士纳的观点，IT领域每隔十五年就会迎来一次重大变革
在这里插入图片描述
大数据时代2010年开启，中国大数据元年为2013年。

存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加

在这里插入图片描述
数据产生方式：

运营式系统阶段➡用户原创内容阶段→感知式系统阶段

二、大数据的四个特性

大数据4V概念：大量化（volume），快速化（velocity），多样化（variety），价值密度比较低（value）。

1、数据量大（volume）

根据IDC作出的估测，数据一直都在以每年50%的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）
人类在最近两年产生的数据量相当于之前产生的全部数据量
预计到2020年，全球将总共拥有35ZB的数据量，相较于2010年，数据量将增长近30倍

2、数据类型繁多（velocity）

大数据是由结构化和非结构化数据组成的

10%的结构化数据，存储在数据库中
90%的非结构化数据，它们与人类信息密切相关

3、处理速度快（variety）

从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少
1秒定律：这一点也是和传统的数据挖掘技术有着本质的不同

4、价值密度低（value）

价值密度低，商业价值高

以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒，但是具有很高的商业价值

三、大数据的影响

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来，在科学研究上，先后历经了实验、理论、计算和数据四种范式。

在思维方式方面，大数据完全颠覆了传统的思维方式：

全样而非抽样
效率而非精确
相关而非因果

四、大数据关键技术

数据采集
数据存储和管理
数据处理与分析
数据隐私和安全

两大核心技术：

1.分布式存储

GFS\HDFS
BigTable\HBase
NoSQL（键值、列族、图形、文档数据库）
NewSQL（如：SQL Azure）

2.分布式处理

MapReduce

五、大数据计算模式

在这里插入图片描述

六、代表性大数据技术

1.Hadoop

在这里插入图片描述

MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce。
编程容易，不需要掌握分布式并行编程细节，也可以很容易把自己的程序运行在分布式系统上，完成海量数据的计算。
MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理。
YARN的目标就是实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架YARN，在YARN之上可以部署其他各种计算框架。
由YARN为这些计算框架提供统一的资源调度管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩。
可以实现一个集群上的不同应用负载混搭，有效提高了集群的利用率。
不同计算框架可以共享底层存储，避免了数据集跨集群移动。

2.Spark

在这里插入图片描述

3.Flink

在这里插入图片描述

4.Beam

在这里插入图片描述

上课不要睡觉了

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大数据笔记

根据IBM前首席执行官郭士纳的观点，IT领域每隔十五年就会迎来一次重大变革。大数据时代2010年开启，中国大数据元年为2013年。运营式系统阶段➡用户原创内容阶段→感知式系统阶段。CPU处理能力大幅提升。存储设备容量不断增加。
复制链接

扫一扫

专栏目录