Spark 写入 ES 几个注意事项

Spark 写入 ES 几个注意事项


以下是本篇文章正文内容

主键设置

向ES中插入数据时,如果没有指定主键(即_id)则会自动生成一个id。在数据发生变化或者数据重导时可能会导致赃数据,为了保证数据的可控性,应该在插入数据时显示指定记录的主键值(自定义生成方式)。
注意
使用 es. mappingid指定spark sql中的主键列名时区分大小写

写入冲突

解决数据重复导致写入 ES 数据冲突有两种解决方法。设置 es.writeoperation 为 upsert(该方法要求设置记录唯一id),这样达到的效果为如果存在则更新,不存在则进行插入,该配置项默认值为 index。自定义冲突处理类,通过自定义类来处理相关错误,比如忽略冲突等

Exactly Once

设置自定义主键id,并将写入模式设置为upsert,可以实现数据导入“Exactly Once”保证。异常数据经过流式处理后,保证结果数据中(并不能保证处理过程中),每条数据最多出现一次,且最少出现一次。Streaming接口提供了Checkpoint功能,可以让程序再次启动时,从上一次异常退出的位置,重新开始计算。

ES写入性能

单个ES结点的写入速度大概是每秒1万行,增加Spark Streaming的计算能力,无法突破这个瓶颈。在写入数据量过大时会出现拒绝写入错误,因此在新业务上线时需要进行谨慎评估。可以通过增加集群节点来水平扩展,提高写入性能。

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫语大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值