从游戏智能到疾病诊断，腾讯「绝悟」AI 从虚拟走向现实-CSDN博客

感谢阅读腾讯 AI Lab 微信号第 160 篇文章。本文介绍腾讯 AI Lab 决策智能AI「绝悟」从虚拟走向现实，首次验证了强化学习用于超大尺寸全片扫描病理图像诊断的可能性。

近年，游戏 AI 大幅促进了强化学习技术发展。在游戏复杂环境中被验证的技术能力，如何迁移解决现实世界的复杂问题，是业界共同关注的研究目标。

12 月 19 日，腾讯 AI Lab 发布其决策智能 AI「绝悟」的一项最新研究成果。该项成果代号为「绝悟 RLogist」，寓意 RL（强化学习 Reinforcement Learning）+ Pathologist（病理学家）。受启发于「绝悟」在 3D 游戏环境观测环境并做出决策的过程，研究团队将相关的深度强化学习技术迁移到病理全片扫描图像诊断领域，在性能接近的情况下将传统病理阅片效率提升 400%。相关论文已被 AAAI 2023 接收，代码已开源。

论文链接：http://arxiv.org/abs/2212.01737

开源链接：https://github.com/tencent-ailab/RLogist

此前，「绝悟」AI 已先后在 MOBA、RTS、3D 开放世界（Minecraft）等多类型游戏中取得了领先的研究成果，验证了其在游戏复杂环境中的决策智能水平。此次「绝悟RLogist」的发布，证明了腾讯 AI Lab 的游戏 AI 技术跨领域解决现实世界问题的潜力。

方法思路：用人的决策思维方式，

解决超大病理图像的稀疏病灶识别问题

随着技术发展，病理行业正在加速向全数字化、智能化、云端化方向发展。如今临床科室常常将组织切片进行全片扫描数字化处理，以便医生阅片及管理。

显微扫描仪生成的高分辨率图像往往能够达到每个像素 0.25 微米，每张图像的尺寸经常是几万乘几万像素甚至更高。这能更全面地展现切片信息，却也给医生的阅片带来了更大的压力，他们要从布满密集细胞和组织的超大尺寸图像中，肉眼找到风险的病灶位置并进行判断，「大海捞针」式的工作难度可想而知。

在高清病理图像中，病灶区域可能仅占很小的比例

近些年深度学习方法通过解决图像/像素级分类和回归问题，对医学图像分析领域做出了很大贡献。然而，全片扫描图像分析对于深度学习仍然具有挑战性。主要挑战来自两个方向：

第一，计算病理学中的病理图像（WSI）具有十亿像素大小的高分辨率，却往往只有一个图像级标签。目前绝大部分的方法都依赖于在高倍镜下对全切片进行密集采样的方式进行特征提取，并对所有采集特征进行信息整合进而实现全片诊断。

第二，这些图像的兴趣点区域（病变区域）往往很稀疏。这带来了诊断相关性弱、数据效率低下等问题。现有的方法大多依赖于多实例学习框架，需要在高倍率下密集采样局部的图像块（patch），增加了计算成本，一张切片往往需要几十分钟来完成计算。这限制了很多潜在的临床应用场景，比如大规模筛查和术中快速评测。

实际上，病理医生在对切片进行判读时，并不需要像这些计算机算法一样观察高倍镜下的每一个角落。病理医生往往先利用显微镜在低倍镜下进行扫片，在高倍镜下确认，必要时可以灵活切换不同倍镜进行复核，根据经验决策最优的查看路径，以最终完成全片判读并定位到关键病灶。

人类医生会凭经验放大图像，检查可疑区域

「绝悟」团队观察到，病理医生的阅片行为，可以转化为最优路径决策问题，而解决这类问题正是强化学习所擅长的方向。以「绝悟」在 Minecraft 环境中完成挖木头任务为例，AI 首先要环顾四周搜集全局信息（类比病理医生在低倍镜下扫片），然后锁定视角（高倍镜确认），找到木头后执行采集动作（确认病灶），如此往复。

本论文提出的正是一种类似医生病理阅片的决策思路。「绝悟 RLogist」采用了基于深度强化学习的，找寻最优看片路径的方法，避免了用传统的穷举方式去分析局部图像切块，而是先决策找到有观察价值的区域，并通过跨多个分辨率级别获得代表性特征，以加速完成全片判读。

具体而言，本文通过条件特征超分辨率实现了交叉分辨率信息融合。受益于条件建模，未观测区域的高分辨率特征可以根据已经被观测过的低分辨率和高分辨率的特征配对，而被更新。

其中一个关键步骤是为病理图像分析领域定义一个强化学习训练环境。该方法使用离散化的动作空间、设计合理的图像分块和完成状态奖励函数，去提升模型的收敛表现，以避免局部最优。相应的训练 pipeline 如下述算法所示：

成果验证：决策提效400%，

获审稿人一致好评

研究团队选择「淋巴结切片转移检测」及「肺癌分型」两个全片扫描图像的分类任务进行基准测试（TCGA-NSCLC 和 CAMELYON16 WSI 数据集）。结果表明，与典型的多实例学习算法相比，「绝悟 RLogist」在观察路径显著变短情况下，能够实现接近的分类表现，决策效率提升400%。

同时，该方法具有较好的可解释性。论文将「绝悟 RLogist」的决策过程可视化，可以潜在用于教育性或者辅助性的医疗诊断场景。

论文获得了所有审稿人的一致高度评价：

“这项工作的潜在影响是毋庸置疑的……意义重大且新颖。”

“这项工作提供了一个新的视角，并将为WSI的选择性分析铺平道路。”

未来，团队将沿着如下点继续优化：1）通过引入更强的神经网络结构增强其表征学习能力；2）使用更高阶的强化学习训练方法，避免学习到错误的观测路径。

从虚拟到现实，

让游戏AI走得更远

腾讯 AI Lab 作为 AI 游戏研究先行者，其自主研发的深度强化学习智能体正不断走近现实。棋牌游戏 AI 「绝艺」在担任国家围棋队训练专用 AI 同时，逐步拓展麻将等非完全信息类博弈能力。决策智能 AI「绝悟」从各类游戏场景之后，如今正式走向了现实世界，标志着 AI 离解决现实问题、科技向善的大目标更近了一步。

同时，基于对强化学习技术前景的关注，实验室正积极促进强化学习领域的共同发展。2019年，腾讯 AI Lab 与王者荣耀共同发布 AI 开放研究平台「开悟」，过去三年已通过「以赛促研」助力高校 AI 人才培养。11 月 21 日，平台发布「王者荣耀 AI 开放研究环境」，为非商业用途的机器学习算法研究公开提供业界独有的高复杂度 MOBA 训练环境，助力前沿探索。

未来，腾讯 AI Lab 将与学界、业界携手，共同利用游戏环境不断提升 AI 能力，并寻找 AI 技术解决更多问题的可能性，在现实领域发挥更大作用。