大数据平台之Spark

james二次元

已于 2024-06-20 13:53:24 修改

阅读量1.2k

点赞数 41

分类专栏：大数据 spark 文章标签：大数据 spark 分布式

于 2024-06-20 09:00:00 首次发布

本文链接：https://blog.csdn.net/youziguo/article/details/139784163

版权

大数据同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

Apache Spark 是一个开源的分布式计算系统，主要用于大规模数据处理和分析。它由UC Berkeley AMPLab开发，并由Apache Software Foundation维护。Spark旨在提供比Hadoop MapReduce更快的处理速度和更丰富的功能，特别是在处理迭代算法和交互式数据分析方面。以下是Spark的详细介绍：

核心概念

Resilient Distributed Dataset (RDD): RDD是Spark的核心抽象，表示一个分布式数据集合。RDD是不可变的，并且支持两类操作：转换（如map、filter）和动作（如reduce、collect）。它具有容错机制，可以从数据丢失中恢复。
DataFrame和Dataset: DataFrame是一个分布式数据集合，类似于传统数据库中的表。它在顶层提供更高层次的API，用于结构化数据处理。Dataset结合了RDD的强类型和DataFrame的优化查询计划特性，是一种强类型的DataFrame。
Spark SQL: Spark SQL允许用户执行SQL查询，并与DataFrame和Dataset API无缝集成。它支持读取和写入各种数据源，包括Hive、Avro、Parquet、ORC、JSON等。
Spark Streaming: Spark Streaming用于实时数据处理。它将实时数据流分割成小批量，并使用Spark的批处理引擎来处理这些数据。
MLlib: MLlib是Spark的机器学习库，提供了许多机器学习算法和实用工具，如分类、回归、聚类、协同过滤、维度降减和底层优化原语。
GraphX: GraphX是Spark的图计算库，用于图并行计算。它提供了图的抽象表示，并支持图操作和属性图的转换。

主要特性

高性能: Spark使用内存计算，提高了处理速度。对比Hadoop MapReduce，它能在迭代算法和交互式查询中表现出色。
易用性: Spark提供了高级API，支持Scala、Java、Python和R。它的交互式shell（基于Scala和Python）使开发和调试更加方便。
通用性: Spark不仅支持批处理任务，还支持流处理、交互查询和图计算，使其成为一个通用的大数据处理平台。
可扩展性: Spark可以运行在各种集群管理器上，如YARN、Mesos和Kubernetes，也可以在独立的Spark集群上运行。它能够处理从几GB到几PB的数据。