2021-03-02

最新推荐文章于 2021-11-10 17:26:45 发布

weixin_52108361

最新推荐文章于 2021-11-10 17:26:45 发布

阅读量116

点赞数

本文链接：https://blog.csdn.net/weixin_52108361/article/details/114292726

版权

大数据生态与Spark简介

一、大数据生态

1、大数据的概念：
“大数据”是指以多元形式，许多来源搜集而来的庞大数据组，往往具有实时性。大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。

2、大数据的特点：数据量大、数据类型繁多、处理速度快、价值密度低。

（1）数据量大
根据IDC做出估测，数据一直都以每年50%的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）
（2）数据类型繁多
大数据是由结构化和非结构化数据组成的
10%的结构化数据，存储在数据库中
90%的非结构化数据，他们与人类信息密切相关
（3）处理速度快
从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少
1秒定律：这一点也是和传统的数据挖掘技术有着本质的不同
（4）价值密度低
以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒，但是具有很高的商业价值

3、大数据的价值：
1）对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
2）做小而美模式的中长尾企业可以利用大数据做服务转型。
3）面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
4）大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

二、spark又是什么呢？
很多的时间场景下，Hadoop的计算速度以及模式已经不能完全的满足计算分析的需求，所以，在hadoop的基础上，我们增加了另外一个新的技术===Spark
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

1、Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。
2、Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

三、 Spark的特点
（1）运行速度快
使用DAG执行引擎以支持循环数据流与内存计算
（2）容易使用
支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程（3）通用性
Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组
（4）运行模式多样
可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

四、Spark的构架图

五、Spark的生态系统

weixin_52108361

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-02

大数据生态与Spark简介一、大数据生态1、大数据的概念：“大数据”是指以多元形式，许多来源搜集而来的庞大数据组，往往具有实时性。大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。2、大数据的特点：数据量大、数据类型繁多、处理速度快、价值密度低。（1）数据量大根据IDC做出估测，数据一直都以每年50%的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）（2）数据类型繁多大数据是由结构化和非结构化数据组成的10%的结构化数据，存储在数据库中
复制链接

扫一扫