codis server & redis server 告警指标

指标说明告警等级监控值描述
redis_alive 实例是否存活P0redis-cli -c  -p ${port}  ping | grep -c PONG

如果指定时间返回PONG表示存活,否则redis不能响应请求,可能阻塞或死亡。当返回值不为1时,redis挂了,告警

connected_clients客户端连接个数

>9000 P1

>7000 P2

>5000 P3

redis-cli -c -p 6380  info | grep -w "connected_clients" | awk -F":" '{print $2}'

如果连接数过高,影响redis吞吐量。>5000 时告警,目前redis maxclients 为10000 codis server 为20000

rejected_connections拒绝的连接个数P0redis-cli -c -p 6380 info | grep -w rejected_connectionsredis连接个数达到maxclients限制,拒绝新连接的个数。告警
total_connections_received新创建连接个数 P2redis-cli -c -p 6380  info | grep -w total_connections_received如果新创建连接数过多,过度地创建和销毁连接对性能有影响,说明短连接严重或连接池使用有问题,可以截取一定时间内的值做报警
blocked_clients被阻塞的连接个数P0redis-cli -c -p 6380   info | grep -w blocked_clients如果监控数据大于0
used_memory_rssredis进程使用内存大小,包含内存碎片P2redis-cli -c -p 6380   info | grep -w used_memory_rss如果rss过大导致内部碎片大,内存资源浪费,和fork的耗时和cow内存都会增大,将该值与maxmemory 对比如果达到了80%则报警。
mem_fragmentation_ratio碎片率P0redis-cli -c -p 6380   info | grep -w mem_fragmentation_ratio(used_memory_rss/used_memory),碎片率过大,导致内存资源浪费。小于1,表示redis已使用swap分区,则告警
instantaneous_ops_per_secredis内部较实时的每秒执行的命令数

P0,P1

11W, 9W

redis-cli -c -p 6380   info |  grep -w instantaneous_ops_per_sec | awk -F':' '{print $2}'单个节点每秒执行的命令数,>=11W 为P0, >=9W 为P1
latest_fork_usec最近一次fork阻塞的微秒数

P0,P1

1000000,800000

redis-cli -c -p 6380   info |  grep -w latest_fork_usec最近一次Fork操作阻塞redis进程的耗时数,单位微秒。超过1s为P0,0.8s为P1
keyspace_hit_ratio请求键的命中率P0redis-cli -c -p 6380   info |  grep -w keyspace_hits / (redis-cli -c -p 6380   info |  grep -w keyspace_hits +
redis-cli -c -p 6380   info |  grep -w keyspace_misses)
keyspace_hits/(keyspace_hits+keyspace_misses)计算所得,命中率低于50%告警

redis cluster告警指标

指标说明告警等级监控值描述
cluster_enabled 是否开启集群模式P0redis-cli -c -p 6379 info | grep -w cluster_enabled

监控是否启用集群模式。不等于1则告警

clusster_state集群健康状态P0redis-cli -c -p 6379 cluster info | grep -w cluster_state

cluster_state不为OK则告警

cluster_slots_assigned集群数据槽slots分配情况P0redis-cli -c -p 6379 cluster info  | grep -w cluster_slots_ok

集群正常运行时,默认16384个slots,不等于16384则告警

cluster_slots_fail检测下线的数据槽slots个数 P0redis-cli -c -p 6379 cluster info  | grep -w -w cluster_slots_fail集群正常运行时,应该为0. 如果大于0说明集群有slot存在故障
cluster_known_nodes集群的节点数P0redis-cli -c -p 6379 cluster info  | grep -w cluster_known_nodes集群中redis节点的个数,少于原本的节点数告警
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cloud孙文波

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值