第 1 章:大数据技术概述【理论篇】
1.大数据时代
· 三次信息化浪潮
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Inter、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算、大数据 | 信息爆炸 | 将涌现出一批新的市场标杆企业 |
·必要性:
1.存储设备容量不断增加、2.CPU处理能力大幅提升、3.网络带宽不断增加
2.大数据概念
四V:
数据量大:
数据类型多:
处理速度快:
价值密度低:
3.大数据影响
在思维方式方面,完全颠覆了传统的思维方式:
- 全样而非抽样
- 效率而非精确
- 相关而非因果
4.大数据关键技术
数据采集:
数据存储和管理:
数据处理与分析:
数据隐私和安全:
两大核心技术:
1.分布式存储(如,GFS\HDFS、HBase、NoSQL、NewSQL)
2.分布式处理(如,MapReduce)
5.大数据计算模式
批处理计算:
流计算:
图计算:
查询分析计算:
6.代表性大数据技术
- Hadoop
- Spark
- Flink
- Beam
第 2 章:Scala 语言基础【实践篇】
1.Scala 语言概述(了解)
1.1 计算机的缘起
1.2 编程范式
1.3 Scala 简介
- Scala是一门多范式编程语言,运行于Java平台(JVM,Java虚拟机),并兼容现有的Java程序。
- Scala是一门纯粹的面向对象的语言,也是一门函数式语言,它整合了面向对象编程和函数式编程的最佳特性。
- Scala 特性:
1.具备强大的并发性,支持函数式编程,可以更好地支持分布式系统。
2.语法简洁,能够提供优雅的API。且兼容Java,运行速度快,且能融合到Hadoop生态圈中。 - Scala 优势:
提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率。 - Scala 是 Spark 的主要编程语言,但是Spark 还支持 Java、Python、R 作为编程语言。
2.Scala 基础- 1.Scala的安装和使用方法
安装Java
安装Scala
- 1.Scala的安装和使用方法
3.面向对象编程基础
4.函数式编程基础
第 3 章:Spark的设计与运行原理【理论篇】
1.Spark 概述
1.1 Spark 简介
1.2 Spark 与 Hadoop 的对比
2.Spark 生态系统
3.Spark 运行架构
4.Spark 的部署方式
(持续更新、完善中。。。)