filesystem cache
es 查询的时候,操作系统会将磁盘文件里的数据自动缓存到 filesystem cache
里面去。如果给 filesystem cache
更多的内存,尽量让内存可以容纳所有的 idx segment file
索引数据文件,那么你搜索的时候就基本都是走内存的,性能会非常高。(读磁盘是秒级,读内存是毫秒级)
数据预热
可以开发一个预热的模块,对热数据每隔一段时间,就提前访问一下,让数据进入 filesystem cache
里面去。
冷热分离
将大量的访问很少、频率很低的数据,单独写一个索引,然后将访问很频繁的热数据单独写另一个一个索引。确保热数据在被预热之后,尽量都让他们留在 filesystem os cache
里,避免被冷数据给冲刷掉。
document优化
避免复杂的关联查询尽量别用,可以将关联方在写入之前,将关联后的数据写入到es。尽量避免 join/nested/parent-child等操作。
分页优化
es 的分页性能较低,数据分布在不同shard中,想要分页需要查询每个shard。假如你每页是 10 条数据,你现在要查询第 100 页,实际上是会把每个 shard 上存储的前 1000 条数据都查到一个协调节点上。
限制查询总数
翻页越深,性能就越差。限定翻页数。
固定每页数量
用scroll api来代替from+size,和在传统数据库中使用游标的方式非常相似。
scroll 会一次性给你生成所有数据的一个快照,然后每次滑动向后翻页就是通过游标 scroll_id
移动,性能会提升很多。(毫秒级)
但是使用scroll不能指定跳转页数,只能一页页的翻。
需要制定es 要保存此次搜索的上下文多长时间,要确保翻页有效时间。