作者
田奇,腾讯云高级工程师,专注大规模离在线混部,弹性伸缩,云原生成本优化,熟悉Kubernetes,关注云原生大数据、AI。
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。
前言
随着 Kubernetes 的普及,企业已经普遍接受了容器,正在向云原生演进。但是当前的 Kubernetes 只解决云原生的第一步(Day 1),就是利用容器编排调度和声明式API等,来解决资源获取、应用部署、高可用容灾、基础运维等难题。但是目前采纳 Kubernetes 的企业也遇到了前往高级阶段的问题,运营庞大复杂的 Kubernetes 集群是非常困难的,例如:
如何评估资源需求?例如:原生 Kubernetes 的调度需要根据容器对资源的请求(Request),一个容器到底需要多少资源量?集群整体的资源量该设置成多少?节点数多少才合适?
如何达到真正的智能扩缩?如何灵活处理具有波峰波谷的变换流量?如果要设置 HPA,到底该用哪个指标?副本数的变换范围如何设置?
如何查看容器的成本状况?目前集群本身可以查看资源使用量、利用率情况,但这些资源对应的账单具体是多少?Kubernetes 集群里面可能有节点、硬盘、网络、LB 等多种资源,如何聚合这些离散的资源账单,并以不同维度展示?
如何提高资源使用效率?如何识别无效和不合理的资源申请负载?如何最合理的选择节点的规格和计费类型?
...
以上这些问题都需要在运营 Kubernetes 的第二步(Day 2)来解决:
降低用户的运营复杂度,为 Kubernetes 插上智能引擎,减轻客户的运营负担,是 TKE 一直以来致力的事情。在前几期的“降本增效”系列文章中,我们谈到了成本控制系统、常用的利用率提升工具、资源利用率现象剖析、理解和应用弹性。TKE 在用户需求的基础上,提出容器智能 ProphetPilot,本文将从背景现状、产品功能、分层模型阐述 Pro