作者
汤英康,腾讯高级工程师、Kubernetes 开源协同 PMC,负责TEG信息安全部的容器化上云相关工作。
引言
截止到2021年5月,TEG 信安运维团队历时一年,完成了 TKE 容器从0到1的平台能力建设,集群总规模超过60万核,在资源成本、服务质量和运营效率上都取得了明显的收益。 本文将介绍信安 TKE 容器的建设思路和历程,分享各阶段遇到的问题和方案,希望能给其他上云团队提供一些参考。
背景
信安致力于提供专业的内容安全解决方案,承接了公司内外大量的业务安全需求,随着业务量的迅速增长,信安内部的资源规模也日益增长,在机器成本、服务质量和交付效率方面也暴露了很多优化空间;自从公司倡导开源协同、自研上云以来,TKE(Tencent Kubernetes Engine)成了内部首推的上云方式,以 docker 和 kubernetes 为核心的容器技术也早已成为业界架构升级的主流选择。
因此,在2020上半年,信安联合 TKE、智研和运管团队协同建设,开启了信安容器平台的建设之路。
建设思路和总体规划
信安对于容器平台的建设思路和历程,可以总结概括为“一个方向、三个阶段”:
【一个方向】向云原生理念看齐,围绕云原生开源生态体系进行方案选型,紧跟业界先进的基础架构升级方向;
【三个阶段】云原生有三驾马车:容器云 + Devops 运营体系 + 微服务,分别对应了容器化征途必经的三个阶段,
- 阶段1:基础平台建设,将容器技术引入到服务架构并适配,完成从0到1的能力建设、业务改造和架构升级;
- 阶段2:运营能力迭代,主要任务是围绕容器平台提升研效能力、完善数据运营能力,并建立稳定性保障体系;
- 阶段3:云原生成熟度提升,基于公司发布的云原生成熟度模型,以成熟度评分为抓手,推动现有架构持续优化。
基础平台建设
平台能力建设
在 TKEStack 团队的协助下,信安顺利地在深圳、广州、上海、南京4个地区完成了CPU独立集群的搭建,结合 TKEStack 的控制台页面,快速具备了容器发布和管理的基础能力。 通用能力之外,在个性化需求的适配上,主要有:
- 实例固定 IP:通过 FloatingIP 插件实现,创建容器时在网络模式中选择浮动IP,IP回收策略选择“缩容或删除 APP 时回收”,即可实现
- CMDB 同步:通过 CMDB 控制器插件实现,实例启动后,插件