![](https://img-blog.csdnimg.cn/direct/3e09664684f945ecbfa080dee4c2ccba.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 86
常用的大数据技术
sssugarr
这个作者很懒,什么都没留下…
展开
-
PySpark 中 RDD 与 DataFrame 的不同应用场景
RDD 是 Spark 的核心抽象,它代表一个不可变的分布式对象集合。RDD 提供了对分布式数据集合的容错和并行操作,允许用户对数据进行细粒度的控制。DataFrame 是一种基于 RDD 的高级抽象,它是一个分布式的行和列的数据集合,类似于关系数据库中的表。DataFrame 提供了更丰富的 API,并能利用 Spark SQL 引擎进行优化。原创 2024-07-09 15:47:20 · 1186 阅读 · 0 评论 -
从0开始学习pyspark--Spark DataFrame数据的选取与访问[第5节]
在PySpark中,选择和访问数据是处理Spark DataFrame的基本操作。以下是一些常用的方法来选择和访问DataFrame中的数据。原创 2024-07-02 15:14:20 · 656 阅读 · 0 评论 -
从0开始学习pyspark--pyspark的数据读取[第4节]
在PySpark中,读取文件型数据是一个常见的操作,Spark支持多种数据格式,如CSV、JSON、Parquet、Avro等。以下是一些常用的方法来读取不同格式的文件数据。原创 2024-07-02 15:10:07 · 601 阅读 · 0 评论 -
从0开始学习pyspark--pyspark中的Spark DataFrame, Spark SQL, Pandas on Spark[第3节]
Apache Spark 是一个开源的分布式计算系统,旨在实现大数据处理的快速和通用。PySpark 是 Spark 的 Python API,使 Python 用户能够利用 Spark 的强大功能。本文将详细探讨 PySpark 的几个核心概念:Spark DataFrame、Spark SQL 和 Pandas on Spark,并通过代码示例进行详细讲解。原创 2024-07-01 17:24:40 · 1099 阅读 · 0 评论 -
从0开始学习pyspark--pyspark的核心概念[第0节]
在学习 `PySpark`时会遇到很多新的关键词,理解这些概念,对我们学习`PySpark`有极大的帮助,以下是一些`PySpark`的关键概念及其详细解释原创 2024-06-27 13:45:46 · 862 阅读 · 0 评论 -
pyspark从0开始的入门教程
PySpark 是 Python 中 Apache Spark 的接口。使用 PySpark,您可以编写类似 Python 和类似 SQL 的命令,以在分布式处理环境中操作和分析数据。这是一个初学者程序,将引导您使用 PySpark 操作数据、构建机器学习管道和调整模型。原创 2024-06-27 11:55:29 · 1668 阅读 · 0 评论 -
利用 Swifter 加速 Pandas 操作的详细教程
Swifter 是一个开源库,旨在自动优化和加速 Pandas 的apply操作。它会根据数据规模和复杂度选择最优的并行处理方式,大大提高数据处理速度。原创 2024-06-26 13:36:44 · 504 阅读 · 0 评论