在实践中学习Spark计算框架（01）

最新推荐文章于 2023-02-04 19:10:26 发布

X.IO

最新推荐文章于 2023-02-04 19:10:26 发布

阅读量838

点赞数

分类专栏：大数据文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_45954198/article/details/121491870

版权

9 篇文章 2 订阅

订阅专栏

1.大数据时代
· 三次信息化浪潮

信息化浪潮	发生时间	标志	解决问题	代表企业
第一次浪潮	1980年前后	个人计算机	信息处理	Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮	1995年前后	互联网	信息传输	雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮	2010年前后	物联网、云计算、大数据	信息爆炸	将涌现出一批新的市场标杆企业

·必要性：
1.存储设备容量不断增加、2.CPU处理能力大幅提升、3.网络带宽不断增加

2.大数据概念
四V：
数据量大：
数据类型多：
处理速度快：
价值密度低：

3.大数据影响
在思维方式方面，完全颠覆了传统的思维方式：
- 全样而非抽样
- 效率而非精确
- 相关而非因果

4.大数据关键技术
数据采集：
数据存储和管理：
数据处理与分析：
数据隐私和安全：

两大核心技术：
1.分布式存储（如，GFS\HDFS、HBase、NoSQL、NewSQL）
2.分布式处理（如，MapReduce）
5.大数据计算模式
批处理计算：
流计算：
图计算：
查询分析计算：

6.代表性大数据技术

1.Scala 语言概述(了解)
1.1 计算机的缘起
1.2 编程范式
1.3 Scala 简介

Scala是一门多范式编程语言，运行于Java平台（JVM，Java虚拟机），并兼容现有的Java程序。
Scala是一门纯粹的面向对象的语言，也是一门函数式语言，它整合了面向对象编程和函数式编程的最佳特性。
Scala 特性：
1.具备强大的并发性，支持函数式编程，可以更好地支持分布式系统。
2.语法简洁，能够提供优雅的API。且兼容Java，运行速度快，且能融合到Hadoop生态圈中。
Scala 优势：
提供了REPL（Read-Eval-Print Loop，交互式解释器），提高程序开发效率。
Scala 是 Spark 的主要编程语言，但是Spark 还支持 Java、Python、R 作为编程语言。
2.Scala 基础
- 1.Scala的安装和使用方法
  安装Java
  安装Scala

3.面向对象编程基础
4.函数式编程基础

1.Spark 概述
1.1 Spark 简介
1.2 Spark 与 Hadoop 的对比

2.Spark 生态系统
3.Spark 运行架构
4.Spark 的部署方式

（持续更新、完善中。。。）

关注