初识spark

最新推荐文章于 2024-07-23 10:48:19 发布

有猫腻妖

最新推荐文章于 2024-07-23 10:48:19 发布

阅读量1.7w

点赞数

分类专栏：数据分析与数据可视化篇文章标签： spark 大数据 python 数据分析 scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyh960/article/details/109226355

版权

数据分析与数据可视化篇专栏收录该内容

8 篇文章 0 订阅

订阅专栏

初始spark

含义：基于内存计算的大数据并行计算框架

优势：快

应用范围：广告业务，准实时报表

spark专用编程语言Scala

scala使用函数式编程思维来开发程序，门槛比java高

Scala核心：RDD,RDD全称为弹性分布式数据集

spark数据处理的基本流程：先创建RDD，然后对RDD进行数据处理

在这里插入图片描述

map(func)：通过 func 函数，对 RDD 数据转换生成新 RDD，可以简单理解为 Python 中 lambda 函数。

filter(func)：对于原有 RDD 中，满足经过 func 处理后返回 True 的数据保留下来，生成新数据集合。

flatMap(func)：将原有数据打平，可以简单理解为行转列。

sample(withReplacement, fraction, seed)：对原有 RDD 抽样，生成新 RDD
union(otherDataset)：将两个 RDD 合并后生成新 RDD。

reduceByKey(func, [numPartitions])：针对( K, V )样式 RDD，将 K 作为被聚合的 key，计算 V 的值。

repartition(numPartitions)：将原有 RDD 重新组合到不同的分区中，比如原来 RDD 在 1000 个分区上，小文件过多，但实际只有几 MB 数据，这时一般会 reshuffle 到一个分区即可。

小结：通过transformations生成的RDD是惰性求值的

实战：

数据源：

统计数据总行数，统计各省份的访问次数总和，统计过滤出大于50万次访问次数的省份

学习网站

spark官网：examples

spark入门中文文档

Twitter Scala课堂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
初识spark

初始spark含义：基于内存计算的大数据并行计算框架优势：快应用范围：广告业务，准实时报表spark专用编程语言Scalascala使用函数式编程思维来开发程序，门槛比java高Scala核心：RDD,RDD全称为弹性分布式数据集spark数据处理的基本流程：先创建RDD，然后对RDD进行数据处理map(func)：通过 func 函数，对 RDD 数据转换生成新 RDD，可以简单理解为 Python 中 lambda 函数。filter(func)：对于原有 RDD 中，满
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

有猫腻妖 你的鼓励是我更新的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。