- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 ES双中心数据稽核(同步)
数据稽核场景基于ES双中心使用场景,需要近实时周期性验证2个ES索引双写的数据差异,并采取措施保证数据的一致性。数据稽核方案由于ES一般承载的数据量较大,无法直接查询到内存中进行明细比对,采用的方案如下:根据业务时间字段查询2个集群索引相同时间段内数据总量,并计算对比所有数据关键字段的CRC32累计值。对比结果有差异的时间段不断细分,重复进行数据量及CRC32比对,最终在内存中进行小数据量明细比对,找出不一致的数据。数据稽核步骤获取指定时间范围内索引数据时间段划分类型查询并统计指定时间范围内的
2020-09-18 10:49:20 1292 2
原创 Logstash数据顺序写ES
适用场景业务需要将操作ES的多条命令先后执行,如先插入再更新、先删除再插入等,且多条命令执行间隔很短。由于Logstash为批量提交事件,Elasticsearch为异步线程池处理,普通使用方式无法保证数据的事务性。Elasticsearch的乐观锁机制Elasticsearch对每条存储的数据都有版本控制,每一次对一条记录的增删改都会使该条记录的版本号增加1。如果在进行某一次操作时,先进行版本号检查,若当前版本号不是预期的版本号,则本次操作将被取消。删除一条记录后,该记录的版本信息默认将保存1分钟
2020-09-18 10:49:11 842
原创 Elasticsearch全量分页可行性
前言在分布式系统中深度分页理解为什么深度分页是有问题的,我们可以假设在一个有 5 个主分片的索引中搜索。 当我们请求结果的第一页(结果从 1 到 10 ),每一个分片产生前 10 的结果,并且返回给协调节点,协调节点对 50 个结果排序得到全部结果的前 10 个。现在假设我们请求第 1000 页--结果从 10001 到 10010 。所有都以相同的方式工作除了每个分片不得不产生前10010个结果以外。 然后协调节点对全部 50050 个结果排序最后丢弃掉这些结果中的 50040 个结果。可以
2020-09-18 10:48:58 166
原创 ES5.5.0集群建设优化点
如何决定要部署多少个数据节点?依据以下原则:单节点上单个索引shards不超过3个每个shard数据量不超过30G如果单个索引数据量过大,节点资源不足时,考虑拆分索引如何查询更快速?Routing。结合业务,根据Routing查询,能大幅度提高查询速度。节点所在主机需要修改的系统配置最大文件打开数修改/etc/security/limits.conf文件,添加或修改如下行: (请切换到root用户 然后强制修改文件)* hard nofile 65536* soft..
2020-09-18 10:48:42 191
原创 ES5.5.0查询不稳定情况分析及解决方案
问题描述根据关键字查询数据时,前一次能查到,再次查询时可能查不到(出现在数据刚写入情形下)使用通用查询接口时,查询条数不稳定(出现在数据刚写入情形下)总结:数据消费写入到ES后,经过一个刷新周期(大量数据时一般为30s或60s),数据被批量处理生成segment及其索引前缀,对外可以被查询到,但此时查询会出现查询不稳定情况,一般不超过1分钟就可以稳定下来。原因分析elasticsearch的索引分片有主分片和副本两种属性,副本的功能为故障转移及负载均衡。故障转移:主分片所在主机或节点出现故障
2020-09-18 10:48:30 907
repository-hdfs-5.5.0.zip
2020-09-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人