Spark 写入 ES 几个注意事项

猫语大数据

于 2023-12-18 00:45:09 发布

阅读量574

点赞数 12

分类专栏：数据导入文章标签： spark elasticsearch 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45232029/article/details/135053025

版权

数据导入专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Spark 写入 ES 几个注意事项

主键设置
写入冲突
Exactly Once
ES写入性能

以下是本篇文章正文内容

主键设置

向ES中插入数据时，如果没有指定主键（即_id）则会自动生成一个id。在数据发生变化或者数据重导时可能会导致赃数据，为了保证数据的可控性，应该在插入数据时显示指定记录的主键值（自定义生成方式）。
注意
使用 es. mappingid指定spark sql中的主键列名时区分大小写

写入冲突

解决数据重复导致写入 ES 数据冲突有两种解决方法。设置 es.writeoperation 为 upsert（该方法要求设置记录唯一id），这样达到的效果为如果存在则更新，不存在则进行插入，该配置项默认值为 index。自定义冲突处理类，通过自定义类来处理相关错误，比如忽略冲突等

Exactly Once

设置自定义主键id，并将写入模式设置为upsert，可以实现数据导入“Exactly Once”保证。异常数据经过流式处理后，保证结果数据中（并不能保证处理过程中），每条数据最多出现一次，且最少出现一次。Streaming接口提供了Checkpoint功能，可以让程序再次启动时，从上一次异常退出的位置，重新开始计算。

ES写入性能

单个ES结点的写入速度大概是每秒1万行，增加Spark Streaming的计算能力，无法突破这个瓶颈。在写入数据量过大时会出现拒绝写入错误，因此在新业务上线时需要进行谨慎评估。可以通过增加集群节点来水平扩展，提高写入性能。

猫语大数据

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
2
评论
Spark 写入 ES 几个注意事项

spark 写入 es 的几个注意事项
复制链接

扫一扫

专栏目录

猫语大数据

CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

12万+: 周排名

12万+: 总排名

8244: 访问

: 等级

299: 积分

379: 粉丝

212: 获赞

8: 评论

169: 收藏

私信

关注

热门文章

分类专栏

最新评论

【sentry 到 ranger 系列】二、Sentry 的 Hadoop 鉴权插件
CSDN-Ada助手: 恭喜作者发布了第二篇关于 Sentry 到 Ranger 系列的博客，内容涉及到 Sentry 的 Hadoop 鉴权插件，让读者对这一主题有了更深入的了解。希望作者能够继续坚持创作，分享更多有价值的内容给大家。建议下一步可以探讨 Sentry 和 Ranger 之间的对比与优劣势分析，这将会让读者受益匪浅。期待作者的下一篇精彩文章！
【sentry 到 ranger 系列】一、Sentry 的 Hive 鉴权插件
CSDN-Ada助手: 恭喜你撰写第六篇博客！标题看起来很有吸引力，讲述了Sentry的Hive鉴权插件，非常值得期待。你的持续创作精神令人钦佩！在下一步的创作中，或许可以考虑分享一些实际案例，或是提供更多的使用技巧和调优建议，这样读者们能够更好地理解和应用这些鉴权插件。谢谢你的分享，期待你的下一篇博客！
【sentry 到 ranger 系列】sentry 的开篇
猫语大数据: 互相学习
【sentry 到 ranger 系列】sentry 的开篇
程序员洲洲: 大佬的文章让我对这领域的技术问题有了更深入的了解，尤其是大佬提到的那些“坑点”，我相信能够在实际应用中避免或解决很多问题。谢谢大佬的分享，期待大佬的更多精彩文章，让我们共同学习、进步。
【sentry 到 ranger 系列】sentry 的开篇
猫语大数据: 谢谢支持

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

猫语大数据 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。