当前,新冠肺炎疫情仍在蔓延,全球已确诊病例数突破1500万,死亡数超过60万,并存在进一步爆发的风险。我国多地也陆续发生新冠肺炎零星病例。
在感染COVID-19的患者中,大多数呈轻度至中度症状,但也有一部分患者的病情初期表现平稳,但会以很快的速度恶化,遭遇更高的健康风险。因此,快速识别出这类有潜在重症风险的患者,对于抗击疫情意义重大。
7月21日晚间,钟南山院士团队与腾讯AI Lab联合发布了一项利用AI预测COVID-19患者病情发展至危重概率的研究成果,可分别预测病人5天、10天和30天内病情危重的概率,有助合理进行早期分诊。
该研究利用年龄、是否气促、是否有恶性肿瘤病史、是否有慢性肺阻、合并症数量、是否有 X 光平片异常、血液中性粒细胞与淋巴细胞比例、血液乳酸脱氢酶含量、血液直接胆红素含量、血液肌酸激酶含量这10项特征来预测患者5天、10天和30天内病情危重的概率。
为了惠及患者,让一线医生尽快可以在临床研究中使用到相关成果,研究团队快速开发部署了网站服务与微信小程序,使用者只要通过平台提交对应特征的测量数值就可以立马获得分析结果。
网站服务:https://aihealthcare.tencent.com/COVID19-Triage_en.html
微信小程序:
为了助力全球共同战疫,团队公开了相关论文,并将模型在Github开源。
模型代码:https://github.com/cojocchen/covid19_critically_ill
论文地址:https://www.nature.com/articles/s41467-020-17280-8
特征选择
在该研究项目中,数据源来自全国 575 家医院的 1590 名患者的脱敏入院数据,其中 131 人发展成了重症。
为了测试模型的泛化,收集了三个数据集作为外部检验数据集。一个来自武汉某医院(940例,94危重);一个来自湖北省十大城市多中心,排除武汉(380例,9危重);以及来自广东省的一家医院(73例,3危重)。
研究团队首先结合 LASSO 算法对数据进行了分析建模,并从中确定了 10 项能很好预测重症风险的患者特征,即年龄、是否气促、是否有恶性肿瘤病史、是否有慢性肺阻、合并症数量、是否有 X 光平片异常、血液中性粒细胞与淋巴细胞比例、血液乳酸脱氢酶含量、血液直接胆红素含量、血液肌酸激酶含量。这 10 项特征都是可以通过常规的医学检测手段在合理的时间内有效获取的,因此可用于在早期快速预测患者的重症风险。
模型性能
为了更精确地建模这 10 项特征与重症风险的关系,研究团队采用了最新的深度学习技术来挖掘数据之中的隐含联系,进而计算病人的重症风险系数。具体来说,研究团队采用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法,深度学习的优势是可通过神经网络对特征进行高阶非线性组合,从而更深层次地建立特征与目标函数之间的映射。
研究团队将80%数据用作训练,20%数据用于模型内部检验。经过训练,所设计的模型在验证集上的 C-index (即一致性指数(index of concordance),通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性,值越接近1,准确率越高)从0.876(线性模型)提升到了 0.894,AUC (指受试者工作特征曲线下面积,值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好)从 0.889 提升到了 0.911。用于内部验证集的精确召回曲线如图所示:
研究团队基于重症风险将所有患者分为三组,共有875,560,155名患者分到低,中和高风险组,分别为0.9%,7.3%和52.9%重症风险概率。这三个患者组的Kaplan-Meier曲线显示出统计学显著分离。
外部检验
为了检验模型的泛化,研究团队测试了来自不同位置的三组人群。第一组是震中武汉;第二组是排除武汉的湖北省十大城市多中心;最后一组是来自广东省。
使用模型对这 1393 例外部检验患者的回溯数据分析也获得了令人满意的预测性能。外部测试集中 106 例发展成重症的患者中,只有 2 例存在数据异常的患者被错误划分到了低风险组。
在整个数据集上,武汉,湖北省,广东省的C-index分别为0.878,0.769,和0.967。在EX3数据集上(缺失三个或更多特征值),C-index分别为0.890,0.852,和0.967。该模型在不同中心的数据上获得的 C-index 均高于0.85,证明了模型的可靠性与有效性。EX3上的检验证明最终得到的模型在仅观测到 7 项特征时依然能取得相当好的表现。
临床价值
当然,一项技术只有得到实际应用才能发挥出真正的价值。研究团队在深度 Cox 模型的基础上又加了一层线性 Cox 模型,以便产生可供医生解读的最终结果。该线性模型会按重要性分别对深度学习模型的预测值与 10 项特征的值赋予不同的权重,然后通过求和得到最终风险系数。该线性模型可以通过诺模图进行手动计算,因其便利性在临床上经常被用来综合各项数值换算最终评估分数。通过诺模图,医生可以很直观地了解各项观察值与风险系数之间的关系,同时也可以在没有电脑的情况下手动计算风险系数。
轻度COVID-19的病例一般是自限性,最需要医疗照顾的是重症病例。研究团队提出的患者分层模型具有较高的临床应用前景和社会经济价值。通过提交病例的临床信息,医务人员可以使用该预测的风险指标在入院时分流病人,并相应地安排病人的治疗计划,确保患者及早接受治疗和医疗资源可以被有效地分配。