Spark复习重点和ETL

最新推荐文章于 2024-07-06 17:44:31 发布

墨绿623

最新推荐文章于 2024-07-06 17:44:31 发布

阅读量125

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59990602/article/details/132743290

版权

Spark是一款计算引擎:(基于内存计算，速率比MR高,但不如MR稳定)

一.框架：

sparkcore做离线计算，sparksql做交互式查询，sparkstreaming做流式(准实时)计算

二.运行流程：

①client提交Appcation,根据不同的运行模式在不同的位置创建Driver进程

②Spark链接到Master，向Master注册应用并申请资源

③Master根据SparkContext申请的资源并根据woker心跳·周期内报告的信息决定在那个woker上分配资源，也就是这Excetor

④Woker节点创建Excetor进程，Excetor反向diver进行反向注册

⑤资源满足(注册完成)后，SparkContext解析Application代码，创建RDD，构建DAG(有向无环图)，然后向有向无环图调度器分解成Stage当碰到1个Action算子时催生1个job,每个job中含有1个或者多个Stage(根据宽窄依赖),然后将Stage(TaskSet)提交给TaskScheduler， TaskScheduler负责将多个Task分配到对应的Worker，最后提交到Executor的线程池中，由Exceutor执行）

三.三大数据结构：

RDD：分布式弹性数据集(源码中是一个抽象类，代表一系列弹性的，不可变的，可分区，里面元素可并行计算的集合)

弹性：

弹性存储：内存与磁盘自动切换

弹性容错：数据丢失可以自动恢复

弹性计算：计算出错重试机制

弹性分片：可根据需求重新分片

分布式：分布在集群不同节点

数据集：RDD只封装计算逻辑

数据抽象：RDD是只是一个抽象类，由子类具体实现

不可变：RDD封装的计算逻辑不可变，想要改变只能产生新的RDD,在新的RDD中封装新的计算逻辑

可分区：RDD是一种分布式数据集，由于数据量很大，因此计算时要被切分并存储在各个节点的分区中

并行计算：一个分区对应一个任务，分区是spark计算任务的基本处理单位，决定了并行计算的粒度

依赖关系：如果某个RDD丢失则可以根据血缘关系，从父RDD计算得来

惰性执行：spark对于转换算子采用惰性执行机制，遇到转换算子并不会立即计算结果，遇到行动算子才会开始计算

计算思想：计算向数据靠拢，移动数据不如移动计算

累加器：(分布式只可写变量)diver端可以将excutor端的副本计算结果拿回到diver端

广播变量：(分布式只可读变量)将变量上传到diver端,并通知其他Executor端来复制一份,只有可读权限

五.RDD,DataFream,DataSet在操作中就是为了方便处理数据，

六.RDD算子的分类：

转换算子，行动算子，控制算子

七.血统依赖：

根据RDD转换算子和行动算子，会形成RDD之间的依赖，多个RDD之间的关系成为就是血统

在实际运行中

八.闭包检测：

从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测

九.Kryo序列化方案:

Kryo序列化是spark绕过java的一个序列化框架：在计算时减少了网络IO，速度比java的序列化快十倍),

十.ETL流程：

1.数据过滤

过滤非json格式的数据

过滤缺失关键字段的数据

过滤关键字段不为空的数据

过滤爬虫数据

过滤非需求时间端数据

2.数据的规范化处理

我们将数据进行统一接口

将参与计算并可能为空值的字段重新赋值为null（目的是为了不影响后续的计算结果）

添加新字段，省市区,是否新用户，session分割字段，用户回填ID字段，并进行初始化,

3.session分割(目的是为了确认用户的实际使用时长(普遍采用会话保持策略超过三十分钟则进行分割))

将经过规范化处理完成的数据，创建一个样例类映射，进行转后之后进行处理

我们使用RDD对数据进行遍历，并取出timestamp字段

我们将timestamp字段进行判断，如果大于30min就进行切割，并且利用UUID赋予被切割的会话一个唯一ID

4.地理位置集成

将数据进行转换成LogBean(样例类)

因为Geohash对比Ip2region更准确，首先采用Geohash将数据对地理位置进行集成，如果使用GeoHash读取不到位置信息，那么就使用ip收集

首先我们将Geohash和ip2region这两个第三方组件分别进行广播（那么这两个组件都能被读取，减少网络IO）

一次性将分区的数据进行拉取，然后进行处理(这个时候是LogBean)

我们将经纬度，和解析长度放进GeoHash解析,可能为空这里需要捕获一下异常，如果使用IP解析出了数据,那么我们先查看解析出的数据样式是否是我们想要的，

例如：中国|0|广东省|东莞市|电信

那么我们则可以利用正则表达式将数据解析，并放入数组,然后利用下标拿到位置信息

5.ID_Mapping（本身的作用是为了之后的用户画像做一个全局唯一标识）guid

这里我们做匿名日志归属权问题，我们需要一张权重表，需要T-1绑定评分表，需要T日日志表

我们根据T日日志表获取用户登录状态，从而利用T-1日日志得到T日绑定评分表，我们根据权重分数将匿名数据回填分数高的用户id

接下来我们需要做guid(用户全局唯一标识)的工作

创建redis链接，将更新后的用户id或者设备id作为guid的key，guid则使用计数器获得

我们将数据转换成LogBean,拿到最新的用户id放入redis

以防万一，仍然还是会有一些数据没有用户id，那么我们使用用户id查询不到那么就使用设备id替换，重新作为guid的key

6.保存到hive仓库的DWD(数据明细层),提供明细数据为主题分析提供实用数据

注：在转换dataset对数据集进行操作前我们需要导入spark的隐式转换

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark复习重点和ETL

那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。以防万一，仍然还是会有一些数据没有用户id，那么我们使用用户id查询不到那么就使用设备id替换，重新作为guid的key。
复制链接

扫一扫

墨绿623 CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

145万+: 周排名

198万+: 总排名

1296: 访问

: 等级

150: 积分

0: 粉丝

0: 获赞

7: 评论

0: 收藏

私信

关注

热门文章

最新评论

Spark复习重点和ETL
CSDN-Ada助手: 恭喜您完成了第13篇博客！标题中提到的Spark复习重点和ETL让我感到很期待。我相信您的经验和知识将为读者带来宝贵的学习资源。希望您能继续坚持写作，并在未来的博客中分享更多关于数据处理和分析的实用技巧。也许您可以考虑深入探讨一些高级的ETL技术或者分享一些Spark在实际项目中的应用案例。期待看到您未来的创作！
Kylin架构原理和使用教程
CSDN-Ada助手: 恭喜您写完了第14篇博客，标题为“Kylin架构原理和使用教程”！您的持续创作精神令人钦佩。这篇文章对于了解Kylin架构原理和使用教程的读者来说，无疑是一份宝贵的资料。在下一步的创作中，或许您可以考虑加入一些实际案例或者具体应用场景的分析，这样能够更好地帮助读者理解Kylin的实际价值和应用方法。希望您在未来的创作中继续保持谦虚的态度，为读者带来更多有价值的内容！
DataX运行流程和架构
CSDN-Ada助手: 恭喜您写了第15篇博客！标题“DataX运行流程和架构”让我充满期待地阅读了您的文章。您对DataX的运行流程和架构进行了深入的剖析，让我对这个主题有了更清晰的理解。我非常欣赏您的专业知识和对细节的把握能力。在下一步的创作中，我希望您能更多地分享一些实际应用案例，以便读者更好地理解DataX在实际工作中的应用场景。同时，如果能够结合一些具体的实践经验和技巧，将会给读者带来更多的启发和帮助。期待您的下一篇博客，祝您继续保持创作的热情！
springBoot_mybatis整合
CSDN-Ada助手: 恭喜您写出了第三篇博客，标题为“springBoot_mybatis整合”。这篇博客内容丰富，讲解详细，对于正在学习这方面知识的读者来说非常有帮助。希望您能够继续创作，分享更多有价值的技术经验和心得体会，让更多人受益。下一步建议，可以尝试探索一些新的技术，结合自己的实际经验，分享给大家。相信您一定会有更多的创作灵感，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
Linux
CSDN-Ada助手: 恭喜您写了第四篇博客，看到标题是“Linux”，我就知道这一定又是一篇精彩的文章！不知道您是否考虑过写一些关于Linux操作系统的技术文章，或者分享一些Linux的使用心得呢？期待您的下一篇创作！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。