大规模容器平台性能瓶颈
- API Server查询检索Pod或Node的延时非常高
- Controller 不能及时从API Server感知到在最新的变化,处理的延时较高
- 当发生异常重启时,服务的恢复时间可能需要分钟级
- Scheduler调用延时高,吞吐差
- Etcd出现较高读写延时
- Etcd服务请求过多
- Etcd存储超限后无法存储Kubernetes的大量对象
- Node、Pod的扩展效率不足
- 网络性能损耗过高
- 存储性能及挂载效率下降
测试内容
稳定性
- 满负载压力测试
- 长稳测试
- 管理节点故障比
- 故障恢复能力
组件性能
- 网络性能
- 存储性能
- Etcd性能
- 日志采集效率
- 监控采集资源效率
扩展效率
- 集群初始化效率
- Node扩展效率
- Pod扩展效率
- 单节点E2E
稳定性:集群端到端测试
-
满负载测试
集群压力达到90%~100%,持续运行1天,监控集群状态是否正常 -
长稳测试
集群压力达到50%~70%,持续运行10天,健康集群的运行状态 -
节点稳定性
管理节点故障,管理节点故障比小于50%时,查看集群运行状态是否会引起集群“雪崩”
资源扩展效率:用户最直观的性能体验
性能指标
记录10、50、90、99分位下的Pod启动时间和API调用延时(LIST、POST、PUT、DELETE、GET)
推荐指标
- Node启动时间4s内
- 99%Pod启动时间5s内
- 99%%API延时1s内
测试工具
Kubemark
组件性能测试:网络能力
存储、etcd、监控、网络