大数据技术原理与应用作业九
1. Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。
Spark具有如下4个主要特点:
- 运行速度快;
- 容易使用;
- 通用性;
- 运行模式多样。
2. Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。
Hadoop存在以下缺点:
- 表达能力有限;
- 磁盘IO开销大;
- 延迟高
Spark主要有如下优点:
- Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;
- Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;
- Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
3. 美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型?
- 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;
- 基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;
- 基于实时数据流的数据处理:时间跨