logstash性能调优
基本命令
- 进入容器
Docker ps
Docker exec -it xx bash
将容器内文件拷贝至本机
docker cp 873220a79c3a:/tmp/dump.hprof /tmp/dump.hprof
mysql -h T99PAISCORE-tidb.dbstg.paic.com.cn -P 3021 -u deployop -p
Deploy - 查看CPU核数
more /proc/cpuinfo |grep “physical id”|grep “0”|wc -l; - 查看 TCP 队列溢出数
$ netstat -s | grep -i listen - 查看不同状态的连接总数
netstat -ant | grep WAIT | wc -l
ss -ant -4 | grep WAIT | wc -l
ss -ant -4 state time-wait | wc -l # 需要减1,减去header这一行
ss -lnt 命令只查看TCP监听端口
logstash优化
- 增大 filter和output worker 数量 通过启动参数配置 -w 24 (等于cpu核数) logstash正则解析极其消耗计算资源,而我们的业务要求大量的正则解析,因此filter是我们的瓶颈。官方建议线程数设置大于核数,因为存在I/O等待。考虑到我们当前节点同时部署了ES节点,ES对CPU要求性极高,因此设置为等于核数。根据CPU核数调整合适的worker数量,观察系统负载。
- 增大 woker 的 batch_size 150 -> 3000 通过启动参数配置 -b 3000
batch_size 参数决定 logstash 每次调用ES bulk index API时传输的数据量,考虑到我们节点机256G内存,应该增大内存消耗换取更好的性能。根据内存堆大小,调整batch_size,调试JVM,观察GC,线程是否稳定。 - 增大logstash 堆内存 1G -> 16G
logstash是将输入存储在内存之中,worker数量 * batch_size = n * heap (n 代表正比例系数)
worker * batch_size / flush_size = ES bulk index api 调用次数
调整flush_size,这个值默认500,我在生产环境使用的1500,这个值需要你逐步增大,观察性能,增大到一定程度时,性能会下降,那么那个峰值就是适合你的环境的。
pipeline线程数,官方建议是等于CPU内核数
- pipeline.workers: 24
实际output时的线程数 - pipeline.output.workers: 24
每次发送的事件数 - pipeline.batch.size: 10000
发送延时 - pipeline.batch.delay: 10
- queue.type: persisted
- path.queue: /usr/share/logstash/data #队列存储路径;如果队列类型为persisted,则生效
- queue.page_capacity: 250mb #队列为持久化,单个队列大小
- queue.max_events: 0 #当启用持久化队列时,队列中未读事件的最大数量,0为不限制
- queue.max_bytes: 1024mb #队列最大容量
- queue.checkpoint.acks: 1024 #在启用持久队列时强制执行检查点的最大数量,0为不限制
- queue.checkpoint.writes: 1024 #在启用持久队列时强制执行检查点之前的最大数量的写入事件,0为不限制
- queue.checkpoint.interval: 1000 #当启用持久队列时,在头页面上强制一个检查点的时间间隔
就时间查询,效率是表分区》时间戳