腾讯网关团队与清华大学联合撰写的学术论文《TGW: Operating an Efficient and Resilient Cloud Gateway at Scale》(《腾讯网关TGW:一种面向大规模场景的高效弹性云网关架构》)成功入选2025年度USENIX年度技术会议(即USENIX ATC '25)。该论文系统阐述了已在腾讯生产环境稳定运行并持续迭代数代的TGW网关架构,重点展示了其用户无感知的无损快速迁移能力、故障自愈能力及高精度故障定位系统。此项研究成果标志着腾讯公司与清华大学、中国人民大学联合共建的云网络技术实验室在云网关领域取得的又一重大突破。以下将针对论文核心技术创新点进行深度解析。
一、背景及目标
大规模云数据中心已成为互联网基础设施的核心支柱。作为业务的公网接入入口,TGW(Tencent Gateway)集成了弹性公网接入、智能负载均衡等关键能力,以应对业务流量的快速增长与复杂需求。
当前大型云数据中心已成为支撑数字生态的核心枢纽。腾讯TGW云网关系统(Tencent Gateway)作为全网流量调度中枢,通过弹性公网接入与智能均衡负载等核心能力,有效应对业务规模指数级增长带来的技术挑战。在云计算服务差异化竞争格局下,不同厂商的"杀手级业务"对网络提出了差异化要求,相较于搜索、电商或短视频业务,腾讯的业务(如在线游戏、实时音视频流媒体)对网络时延、传输稳定性具有更高标准。为此我们构建并成功运营了模块化、可高度解耦的TGW云网关系统,其核心能力包括:
● 超高性能转发平面:单节点转发能力达传统方案的2.9倍;
● 秒级弹性伸缩:集群间状态与流量可在4秒内完成无损迁移;
● 智能高可用体系:故障检测、定位与自愈机制支撑现网100%可用性;
● 极致稳定性:承载数十Tbps流量,最坏情况下丢包率低至10⁻⁷~10⁻⁴。
互联网业务的“永不掉线”的需求与现网运营中不可避免的设备及网络故障、变更、网络攻击是有相当的矛盾的,因此对网关系统的可用性保障能力也是很大挑战。因此团队进行设计、部署及持续迭代,已实现以下核心目标:
● 高效数据包处理:支持数十Tbps吞吐量,同时保证微秒级延迟。
● 可扩展的状态管理:实现运行时无感知、无损的状态迁移,避免服务中断。
● 快速故障恢复:应对数据中心频繁的硬件和软件故障,确保高可用性。
TGW云网关系统已在腾讯云全球基础设施中稳定运行8年,服务游戏、直播、金融等海量业务场景,积累了相当丰富的大规模工业级实践经验。本次入选USENIX ATC '25的论文,系统阐述了TGW的架构设计、关键技术(如可扩展状态迁移、故障恢复机制)及运营经验,将为行业提供重要参考。
二、TGW架构及工作流程
TGW采用层次化模块设计,将网关系统分为以下3个部分:
1. 转发平面:分为无状态的TGW-EIP(弹性公网接入)和有状态的TGW-CLB(云负载均衡)。
2. 控制平面:包括全局管理平面(Orchestrator)、集群本地控制平面(Operator)和分布式数据平面(Load Distributor, LD)。
3. 辅助组件:路由发布(BGP+ECMP路由)、探针(故障检测&