spark序列化？

最新推荐文章于 2022-07-18 11:22:56 发布

augie_ly

最新推荐文章于 2022-07-18 11:22:56 发布

阅读量504

点赞数 3

分类专栏： Spark 文章标签： 1024程序员节 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43777152/article/details/109248935

版权

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

序列化的作用是将对象或者其他数据结构转换成二进制流，便于传输，后续再使用反序列化将其还原。因为二进制流是最便于网络传输的数据格式。
序列化对于提高分布式程序的性能起到非常重要的作用。一个不好的序列化方式（如序列化模式的速度非常慢或者序列化结果非常大）会极大降低计算速度。很多情况下，这是你优化Spark应用的第一选择。Spark试图在方便和性能之间获取一个平衡。Spark提供了两个序列化类库：

Java序列化：在默认情况下，Spark采用Java的ObjectOutputStream序列化一个对象。该方式适用于所有实现了java.io.Serializable的类。通过继承
java.io.Externalizable，你能进一步控制序列化的性能。Java序列化非常灵活，但是速度较慢，在某些情况下序列化的结果也比较大。
Kryo序列化：Spark也能使用Kryo（版本2）序列化对象。Kryo不但速度极快，而且产生的结果更为紧凑（通常能提高10倍）。Kryo的缺点是不支持所有类型，为了更好的性能，你需要提前注册程序中所使用的类（class）。

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
spark序列化？

序列化的作用是将对象或者其他数据结构转换成二进制流，便于传输，后续再使用反序列化将其还原。因为二进制流是最便于网络传输的数据格式。序列化对于提高分布式程序的性能起到非常重要的作用。一个不好的序列化方式（如序列化模式的速度非常慢或者序列化结果非常大）会极大降低计算速度。很多情况下，这是你优化Spark应用的第一选择。Spark试图在方便和性能之间获取一个平衡。Spark提供了两个序列化类库：Java 序列化：在默认情况下，Spark采用Java的ObjectOutputStream序列化一个对象。该方式适
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。