作者
张路,运营开发专家工程师,现负责游戏知几 AI 助手后台架构设计和优化工作。
游戏知几
随着业务不断的拓展,游戏知几AI智能问答机器人业务已经覆盖了自研游戏、二方、海外的多款游戏。游戏知几研发团队主动拥抱云原生,推动后台业务全量上云,服务累计核心1w+。
通过云上的容器化部署、自动扩缩容、健康检查、可观测性等手段,提高了知几项目的持续交付能力和稳定性,形成了一套适合游戏知几自身的上云实践方案。本文将会介绍游戏知几项目中遇到的痛点以及探索出的一套可靠的上云实践方案。
知几项目背景
游戏知几是一款游戏智能AI产品和运营解决方案,它基于自然语言处理、知识图谱、深度学习等前沿技术,为游戏玩家提供一站式服务,包括游戏内外实时智能问答、游戏语音陪伴、自助流水查询、游戏内外数据互通、主动关怀防流失、产品合规保护等多种能力,目前已经接入包括王者荣耀、和平精英、PUBG mobile、天刀手游等六星游戏在内的80+款游戏,为海内外数以亿计的游戏用户提供服务,获得众多游戏项目和广大用户的持续好评。
同时游戏知几还提供了简便易用、性能良好的客户端 SDK 和功能完备的运营平台系统,支持模块化接入,显著降低了用户运营中的人力成本,提升了玩家的交互体验。
随着知几业务的不断发展,知几的部署架构也在不断的演进,逐步从最初的 IDC 部署架构迁移到当前的云原生部署架构,实现了业务服务的全面上云。
上云前的知几
docker 部署方案
知几在最初采用 docker 部署的方案来部署服务,服务的 CI/CD 通过夸克平台实现,平台将编译打包好的服务推送到 docker 机进行部署。为了实现机器的水平扩容,运维同学会将 docker 环境整体打包成基准镜像,包括 IDC 的机器环境所依赖的环境,比如 CL5 agent,gse agent 等。当需要扩容时,将基准环境发布到扩容机器上进行扩容操作。
知几整体的部署架构如下图所示:
- 外部请求统一通过 stgw 接入,rs 到后台服务的 vip 上,通常会区分移动、联通、电信和小流量运营商;
- vip 下挂载的机器IP、端口通过tgw平台配置,请求通过一定的负载均衡策略发送到IDC机器的后台服务上;
- 服务的 CI/CD 通过夸克平台操作,完成服务的编译、打包、发布等操作,也支持操作回滚,进程监控等;
- 监控告警、日志系统接入的是mo监控平台和骏鹰。
服务遇到的问题
知