Elasticsearch调优

码匠搬砖师

已于 2023-09-12 15:55:54 修改

阅读量224

点赞数

文章标签： elasticsearch 大数据搜索引擎

于 2023-09-12 15:48:12 首次发布

本文链接：https://blog.csdn.net/weixin_45481857/article/details/132834129

版权

问题背景

我们知道，当Elasticsearch的索引变得过大之后，会导致性能变差，主要有以下几个方面的影响因素：

硬盘读写性能下降：随着索引的增大，数据量的增加会导致硬盘读写操作变得更加频繁。当数据量过大时，需要较多的时间进行读写操作，具体来说：

磁盘寻址时间增加：在读写操作时，硬盘需要进行磁盘头的寻址操作，即移动磁盘读写头到所需的扇区/块。当索引变得过大时，数据的分布可能更加分散，相应地磁盘寻址时间会增加。这会导致每次读写数据都需要更长的时间，从而降低性能。
硬盘读写带宽限制：硬盘的读写带宽是有限的，当索引变得过大时，需要读写的数据量也增加了。因此，硬盘的读写带宽可能无法满足大量数据的读写需求，从而导致性能下降。
硬盘缓存压力增加：硬盘缓存（如操作系统的文件系统缓存）可以存储热门数据，加速读取过程。然而，当索引变得过大时，热门数据在缓存中的占比可能会减少，缓存命中率下降。这导致更多的读写操作需要直接访问磁盘，进一步影响性能。
硬盘机械运动限制：机械硬盘的读写操作涉及物理部件的机械运动，如读写头的移动和盘片的旋转。这个过程相对较慢，当索引变得过大时，读写操作需要更多的机械动作，增加了延迟。因此，机械硬盘在大索引场景下性能较差。

内存压力增加，索引的增大会占用更多的内存空间，因为Elasticsearch首先将索引的一部分加载到内存中进行查询操作。当索引过大时，内存需求也会相应增加，如果系统内存不足，就需要频繁地从磁盘中进行数据交换，导致性能下降。其中包括查询的缓存压力，分词字典和索引数据的缓存压力：

查询的缓存压力：Elasticsearch会使用缓存来提高搜索和查询的性能。当索引变得过大时，缓存的压力也会增加，因为需要缓存更多的数据块和元数据。这会导致内存使用量增加，从而增加内存压力。
分词字典：Elasticsearch使用分词器对文本进行分词处理，以便进行更精确的搜索。分词器需要将文本转换为词汇表，并将其存储在内存中。当索引变得过大时，词汇表的大小也会增加，从而增加内存压力。
索引数据结构：Elasticsearch使用倒排索引来加快搜索和查询的速度。倒排索引是一个非常大的数据结构，它需要大量的内存来存储。当索引变得过大时，倒排索引的大小也会增加，从而增加内存压力。

查询速度减慢：随着索引的增大，查询时需要扫描更多的数据。大索引需要更长的时间来查找匹配的结果，尤其是对于复杂的查询操作，这将导致查询速度减慢。
索引维护开销增加：随着索引的增大，维护索引的开销也会增加。例如，当进行索引的更新、删除等操作时，会涉及到数据的重新排序、合并、删除等操作，这些操作都需要消耗时间和计算资源。当索引过大时，这些维护操作的开销也会随之增加。

常规优化

因此，我们知道当Elasticsearch的索引变得过大时，可能会遇到性能下降的问题。可以通过一些常规的方式去优化Elasticsearch索引过大的情况：

分片策略优化：索引过大时，考虑重新设计分片策略。一般来说，每个分片的大小应在10GB-50GB之间，如果超过这个范围，可能会对性能产生负面影响。可以通过调整索引的分片数和副本数来达到最佳平衡，提高查询性能。
硬件升级：如果硬件满足不了索引过大的需求，考虑升级硬件。例如，增加更大容量的硬盘、提高磁盘IO性能和网络带宽等。这些升级可以减少磁盘IO压力和提高数据传输速度，从而提升整体查询性能。
优化缓存：Elasticsearch使用缓存来提高查询性能。当索引过大时，缓存中的命中率可能会下降。可以通过增加缓存的大小，调整缓存的过期策略以及使用更高级别的缓存来提高命中率和查询性能。可以尝试使用更大的查询缓存（query cache）或是过滤缓存（filter cache）来提高性能。
索引压缩：当索引变得过大时，考虑使用Lucene的索引压缩机制，通过压缩和归档冷数据来减少索引的大小。可以使用Elasticsearch的特性如冷数据节点（Cold Data Nodes）、分层存储（Tiered Storage）等，将冷数据转移到更廉价的存储介质上，从而减少存储空间和压力。
查询优化：优化查询可以减少对索引的压力和数据的读取量。可以通过使用合理的搜索关键词、过滤器、聚合查询等来缩小查询范围并减少返回结果的大小。还可以通过优化查询语句和使用更适合的分析器、分词器等来提高查询效率。
数据清理和归档：定期清理和归档过期或不再使用的数据，可以有效减少索引的大小。可以使用Elasticsearch的索引生命周期管理（ILM）机制和定时任务来自动执行数据清理和归档操作。

水平拆分

当常规的优化手段都完成后，可能还是由于业务的迅速增长导致索引的数据量仍然很大，此时就需要通过类似于数据库的水平拆分来减小索引的大小，即将原本一个大索引拆分成多个较小的索引的过程。每个小索引被分配到不同的分片中，以提高查询和索引的性能。这种拆分方式可以实现横向扩展，在需要处理大量数据的情况下提供更好的性能和可扩展性。

水平拆分可以带来以下几点好处：

首先是可以提高性能，当一个索引变得过大时，查询性能可能受到影响。较大的索引需要更多的磁盘IO操作和内存，查询时间也会增加。通过进行水平拆分，可以将数据分散到多个小索引中，每个小索引只需要处理相对较小的数据量，从而提高查询性能。
其次可以实现负载均衡：通过将数据分散到多个分片中，可以实现负载均衡。索引水平拆分允许将查询请求分发到不同的节点上，提供更好的集群吞吐量和性能。
最后，还能灵活管理数据：水平拆分可以根据数据特性和访问模式，将不同类型或时间段的数据放置在不同的索引中。这样可以更好地管理数据，便于后续的备份、恢复、迁移和删除操作。

拆分时需要注意的点：

1.确定拆分的维度，需要从业务角度确定一个拆分的维度，拆分的维度需要是不变的，否则可能会引入维度变更的复杂问题，另外拆分后的数据希望尽量能做到大小合适均匀，同时还需要评估查询的场景，没有涉及到跨索引的查询排序分页的场景。

2.针对离线写入数据和在线查询数据通过一个路由模块计算出具体的某一个拆分后的索引，以保证更新和查询均能正确的运行

3.针对索引变更或者数据迁移的场景，由于大索引已经拆分成了数量众多的小索引，需要通过工具或者脚本来批量对所有的索引进行mapping变更，别名切换，reindex等运维操作，以保证索引的运维效率没有因索引拆分的而下降。