Spark 写入 ES 几个注意事项
以下是本篇文章正文内容
主键设置
向ES中插入数据时,如果没有指定主键(即_id)则会自动生成一个id。在数据发生变化或者数据重导时可能会导致赃数据,为了保证数据的可控性,应该在插入数据时显示指定记录的主键值(自定义生成方式)。
注意
使用 es. mappingid指定spark sql中的主键列名时区分大小写
写入冲突
解决数据重复导致写入 ES 数据冲突有两种解决方法。设置 es.writeoperation 为 upsert(该方法要求设置记录唯一id),这样达到的效果为如果存在则更新,不存在则进行插入,该配置项默认值为 index。自定义冲突处理类,通过自定义类来处理相关错误,比如忽略冲突等
Exactly Once
设置自定义主键id,并将写入模式设置为upsert,可以实现数据导入“Exactly Once”保证。异常数据经过流式处理后,保证结果数据中(并不能保证处理过程中),每条数据最多出现一次,且最少出现一次。Streaming接口提供了Checkpoint功能,可以让程序再次启动时,从上一次异常退出的位置,重新开始计算。
ES写入性能
单个ES结点的写入速度大概是每秒1万行,增加Spark Streaming的计算能力,无法突破这个瓶颈。在写入数据量过大时会出现拒绝写入错误,因此在新业务上线时需要进行谨慎评估。可以通过增加集群节点来水平扩展,提高写入性能。