iMeta | 四川大学郭安源组开发T细胞状态评估新方法

刘永鑫Adam

于 2024-09-16 07:02:39 发布

阅读量943

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzMjA4Njc1MA==&mid=2247512588&idx=1&sn=3c22a47cbaa5dbed3bd4804bea863291&chksm=fbf64ecf68e83e87bc900ca7d80eaf131942e1ec71674e98e21d57d4a3af2e125c906d2de8b8&scene=126&sessionid=0

版权

点击蓝字关注我们

TCellSI：T 细胞状态评估的新方法及其在免疫环境预测中的应用

研究论文

● 期刊：iMeta（IF 23.7）

● 原文链接DOI: https://doi.org/10.1002/imt2.231

●2024年8月26日，四川大学郭安源团队在iMeta在线发表了题为“TCellSI: A novel method for T cell state assessment and its applications in immune environment prediction”的文章。

● 本研究建立了一种名为T细胞状态识别器（TCellSI）的强大而细致的评分工具。TCellSI 可通过用户友好的R软件包和网络服务器 (https://guolab.wchscu.cn/TCellSI/) 轻松访问。通过提供个性化癌症疗法的见解，TCellSI 有可能对癌症治疗产生重大影响。

● 第一作者：杨靖敏、张楠

● 通讯作者：郭安源（guoanyuan@wchscu.cn）

● 合作作者：罗涛、杨梅、沈文康、张礼斌、谭帧林、夏云、周小波、雷倩

● 主要单位：华中科技大学生命科学与技术学院、四川大学华西医院大数据研究中心、中国科学院大学、德克萨斯大学休斯顿卫生科学中心

亮点

● T Cell Sate Identifier (TCellSI)是一种新颖、准确的评分工具，可从转录组数据中评估八种T细胞状态；

● TCellSI对免疫环境具有预测价值，可将T细胞状态与患者的预后和对免疫疗法的反应联系起来；

● TCellSI可通过用户友好的 R 软件包和在线网络服务器访问。

摘要

T 细胞是免疫系统不可或缺的组成部分，其多方面的功能由不同的T细胞类型及其各种状态决定。虽然现在有多种计算模型可以预测不同类型T细胞的丰度，但却缺乏评估其状态的工具来描述其静息、活化和抑制的程度。为了填补这一空白，我们利用Mann-Whitney U统计量的计算方法建立了一种名为T细胞状态识别器（TCellSI）的强大而细致的评分工具。TCellSI方法能从转录组数据中评估八种不同的T细胞状态--静息、调节、增殖、辅助、细胞毒性、初始耗竭、终末耗竭和衰老，通过特定的标记基因集和汇编的参考谱为样本提供T细胞状态评分（TCSS）。TCellSI通过对一系列T细胞类型的大量模拟RNA-seq数据和真实RNA-seq数据进行验证，不仅能准确描述T细胞状态，而且在反映T细胞特性方面超越了现有已发现的特征。重要的是，该工具在免疫环境中显示出预测价值，将T细胞状态与患者预后和对免疫疗法的反应联系起来。为了更好地利用，TCellSI可通过用户友好的R软件包和网络服务器 (https://guolab.wchscu.cn/TCellSI/) 轻松访问。通过提供个性化癌症疗法的见解，TCellSI有可能对癌症治疗产生重大影响。

视频解读

Bilibili：https://www.bilibili.com/video/BV1yo4WeKEYX/

Youtube：https://youtu.be/Jyo7nH45DZA

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网：http://www.imeta.science/

全文解读

引言

T细胞是重要的免疫细胞，对免疫反应至关重要。最近的研究表明，T淋巴细胞的多样性令人不可思议。它们的起源、分化轨迹和功能各不相同，包括效应、细胞毒性和抑制作用。在T细胞中观察到的显著多样性反映在它们存在的多种独特状态上。不同T细胞亚型之间共享许多标记物，这表明T细胞状态形成了一个连续体，而不是以前认为的不同类别。同一类型的T细胞可表现出不同程度的静息、活化和抑制状态。这些变化由多种因素造成，包括局部微环境、接触抗原和激活T细胞的信号。因此，开发一种全面的T细胞状态评估工具至关重要，它能准确地反映免疫环境，有别于T细胞亚群。

以不同状态的T细胞为靶标是一种先进的治疗策略，旨在增强机体的免疫反应，以抗击癌症和其他疾病。例如，据报道，增殖的衰竭CD8 T细胞能增强人类头颈部鳞状细胞癌的长期抗肿瘤效果。此外，针对衰老的T细胞免疫系统也被认为是预防急性脑损伤和慢性神经变性的潜在策略。探索T细胞状态的复杂性有助于我们更好地理解免疫系统如何与疾病相互作用，为提高免疫疗法的疗效提供重要线索。庞大的转录组数据，包括大量 RNA 测序（RNA-seq）和单细胞 RNA-seq（scRNA-seq）数据，为通过基因表达谱分析确定T细胞状态和T细胞亚型提供了机会。ImmuCellAI、CIBERSORTx、xCell等工具可利用转录组数据量化T细胞亚型。然而，专门用于评估免疫反应中T细胞的静息、活化和抑制状态的方法仍是空白。虽然只知道T细胞亚型，但要完全了解它们的具体状态仍具有挑战性。例如，中枢记忆T细胞（Tcm）既可以处于静息状态，也可以处于活化状态，能够进行杀伤。同样，效应记忆T细胞（Tem）既可能表现出衰老的晚期迹象，也可能保持活化状态。

因此，迫切需要一种高效的方法来量化T细胞的各种状态。本研究利用 Mann-Whitney U 统计法，建立了一种名为T细胞状态识别器（TCellSI）的稳健而细致的评分工具。TCellSI 方法评估八种不同的T细胞状态--静息、调节、增殖、辅助、细胞毒性、初始耗竭、终末耗竭和衰老，并为样本提供T细胞状态评分（TCSS）。TCellSI利用各种T细胞类型的大量伪bulk样本和真实样本的RNA-seq数据进行了验证，能有效识别T细胞状态，在捕捉T细胞真实特征方面优于已有的特征。重要的是，该工具将T细胞状态与患者预后和对免疫疗法的反应联系起来，显示出在肿瘤学领域的潜力。TCellSI为量身定制的癌症疗法提供了洞察力，有可能改善治疗效果和有效性。目前的研究涵盖了大规模数据，包括来自 20个数据集的379个T细胞系、34,730个单细胞、4,477个由单细胞数据模拟出的伪bulk样本、33种癌症类型的10,535 名癌症患者、20种组织类型的 7,862个正常样本、免疫疗法队列中的674个样本以及884个受病毒感染的非癌症外周血样本。

结果

TCellSI 方法概述

TCellSI工具旨在评估三种主要的T细胞状态：静息、调节、增殖、辅助、细胞毒性、初始耗竭、终末耗竭和衰老。一种特定的T细胞类型可同时表现出高水平的不同状态。图 1A 展示了我们研究的图形摘要。步骤 1 显示了八种不同的T细胞状态及其相应的亚型，按其静息、激活和抑制水平进行分类。步骤 2 概述了 TCellSI 算法的工作流程，详细说明了从数据输入到最终评分结果的每个阶段。通过收集文献、T 细胞单细胞数据和采用机器学习方法，我们得出了代表不同T细胞状态的八个标记基因集，以及这八个状态的牢固确立的参考谱。TCellSI 算法利用转录组数据作为输入，评估八种不同的T细胞状态，并以 TCSS 的形式呈现。步骤 3 演示了 TCellSI 的验证，包括强调其实际效果的详细案例研究。图 1B 简要说明了 TCellSI 的核心算法，详细算法见方法部分。转录组数据的 TCSS 计算依赖于 Mann-Whitney U 统计量。为了更好地利用，我们开发了一个用户友好型 R 软件包 (https://github.com/GuoBioinfoLab/TCellSI/) 和一个在线网络服务器 (https://guolab.wchscu.cn/TCellSI/)。

图1. 图文摘要和 TCellSI 的工作流程

(A) 当前研究的图表摘要。步骤 1 显示了八种不同的T细胞状态及其基于静息、激活和抑制程度的相应T细胞亚型。步骤 2 说明了 TCellSI（T细胞状态识别器）的算法工作流程，详细介绍了从数据输入到最终评分结果的每个阶段。第 3步介绍TCellSI 的验证，包括详细的案例研究，以证明其在实际应用中的有效性。(B) TCellSI 算法的流程。管家基因校正确保了跨样本的可比性。核心算法基于 Mann-Whitney U 统计原理。采用 scRNA-seq（单细胞 RNA 测序）的参考谱来完善评分值。TCGA，癌症基因组图谱。GTEx，基因型-组织表达。

利用单细胞 RNA-seq 数据生成的模拟数据评估 TCellSI

为了验证 TCSS 是否能准确代表T细胞状态，我们利用 TCellSI 算法分析了从肝细胞癌的外周血、肿瘤和邻近正常组织（GSE98638）中获得的单细胞数据（包括 5,063个单个T细胞）产生的模拟 RNA-seq 数据。这些数据包含 14 种不同的T细胞类型，包括效应T细胞（Teff）、终末分化的效应记忆T细胞（Temra）、幼稚T细胞（Tn）、中心记忆T细胞（Tcm）、效应记忆T细胞（Tem）、衰竭T细胞（Tex）、T 辅助细胞 1 型（Th1）、T 辅助细胞 17 型（Th17）、Tfh（滤泡辅助T细胞）、增殖T细胞（Tprolif）、调节T细胞（Treg）。我们计算了各种T细胞类型的TCSS，图2A的每个子图说明了特定T细胞亚型的八种TCSS的平均分布情况。结果显示，Temra 细胞的衰老 TCSS 最高。这一发现与现有理论一致，即Temra细胞通常表现出衰老特征，如端粒缩短、表型改变和细胞周期停滞。同时，由于衰老特征，Temra 细胞的增殖 TCSS 较低。在八项指标中，Tn 细胞的凋亡 TCSS最高，CD8 Teff 和 CD8 Tcm 细胞的细胞毒性 TCSS最高。Tex细胞在终端衰竭方面得分最高，Tprolif细胞在增殖方面得分最高，Treg细胞在调节方面得分最高。图 2B 显示了每种T细胞亚型的伪bulk RNA-seq 样本的优势（最高）TCSS 指标的比例分布。例如，CD4 Temra 的衰老 TCSS 百分比为 100%。这意味着在 8个 TCSS 指标中，所有 CD4 Temra 的衰老 TCSS 都是最高的。

为了进一步评估 TCSS 的疗效，我们利用 TCellSI 算法分析了来自 GSE108989的包含 11,138 个T细胞（包括 16 种T细胞类型）的更广泛的单细胞数据集。该数据集包括 Tn、Tcm、Tem、Trm（组织驻留记忆T细胞）、Th1、Th17、Tfh、Treg、Tfr（滤泡调节T细胞）、Tex 和 Temra。我们利用这些不同T细胞类型的模拟 RNA-seq 数据计算了 TCSS，得出了以下结论（见图 3A）。在静息 TCSS 中，Tn 细胞的得分明显高于其他类型的T细胞，而在辅助 TCSS 中，CD4 T细胞的得分明显高于 CD8 T细胞。与其他类型的T细胞相比，Temra 细胞在增殖 TCSS 中的得分明显较低，而 Treg 细胞在调节 TCSS 中的得分则明显较高。在细胞毒性 TCSS 中，Trm 和 Tex 细胞的得分明显高于其他类型的T细胞。事实上，CD8 Tex 细胞保持着强大的效应功能，与旁观者细胞（非肿瘤反应性）相比，它们能表达更高水平的颗粒酶、穿孔素和干扰素-γ。研究还表明，它们比非终末耗竭T细胞的增殖速度更快。在衰老 TCSS 方面，Temra 细胞的得分明显高于其他类型的T细胞。相反，在T细胞衰竭方面，Trm 细胞的初始耗竭 TCSS 最高，而 Tex 细胞的终末耗竭 TCSS 最高 (见图3B)。先前的研究表明，CD8 Trm 细胞具有细胞初始耗竭表型。综上所述，这些结果表明 TCellSI 可以准确评估不同类型T细胞的状态特征。

图2. 利用 scRNA-seq 数据生成的模拟数据评估 TCellSI

(A) 从 scRNA-seq 数据中获得的T细胞模拟样本的 TCSS（T 细胞状态评分）分布。每个子图代表特定T细胞亚型的八个 TCSS 的平均分布。(B) 各T细胞亚型的优势（最高）TCSS 指标的比例分布。每个甜甜圈图揭示了八个 TCSS 中哪一种在特定T细胞亚型的样本中最高。

图3. 利用T细胞伪bulk样本评估 TCellSI

(A) 使用从 scRNA-seq 数据中提取的伪样本对 16 种T细胞类型的八个 TCSS 指标进行的点阵图比较。(B) 雷达图显示 CD8 Trm 和 CD8 Tex 伪bulk样本中八个 TCSS 的异同。***p < 0.001。

利用多种样本类型的 RNA-seq 数据验证 TCellSI

接下来，我们使用各种T细胞类型的真实 RNA-seq样本来评估 TCSS 的性能。我们收集了包含 14 种T细胞类型的 133 份样本，使用流式细胞术对其进行纯化，然后通过bulk RNA 测序对其进行分析。图 4A 显示，计算 TCSS 后，nTreg（幼稚 Treg）的静息TCSS 明显高于 eTreg（效应 Treg），而调节TCSS 则明显低于 eTreg。在由 Tn、Tcm、Tem、Tc（细胞毒性T细胞）和 Temra 细胞类型组成的样本中，观静息TCSS 逐渐下降，这与T细胞分化水平的增加有关。Th和Tfh细胞的辅助性TCSS较高，而Tc细胞的细胞毒性TCSS较高。Th 和 Tfh 细胞的辅助性 TCSS 较高，而 Tc 细胞的细胞毒性 TCSS 较高。研究还证实，Tprolif 细胞的增殖 TCSS 明显高于非 Tprolif 细胞，Treg 细胞的调节 TCSS 明显高于 Tn 细胞。随着T细胞分化程度的增加，衰老 TCSS 也逐渐增加。与其他类型的T细胞相比，Tex 细胞在初始耗竭和终末耗竭 TCSS 方面的得分都更高。

为了证明 TCSS 的普适性，我们还收集并分析了 368 名健康人和 516 名 COVID-19（冠状病毒病 2019）患者的血样数据。我们计算了两组患者的 TCSS，并在图 4B 中进行了比较。有研究表明，COVID-19 患者外周血中的 CD4 和 CD8 T细胞通常会减少，从而促进抗病毒T细胞反应。与此相一致，我们的研究结果表明，与健康人的样本相比，COVID-19 样本中的凋亡 TCSS明显较高，而细胞毒性 TCSS则明显较低，这表明 COVID-19 样本中的免疫状态有所下降。

评估细胞衰老程度的标准有很多，我们比较了衰老 TCSS、p16 和 p21 基因表达以及 CS 评分（根据 1259个基因计算的细胞衰老评分）在识别衰老细胞方面的能力。测试数据包括 12个纯T细胞样本（包含衰老T细胞和非衰老T细胞）。我们分别计算了 4个指标的接收者操作特征曲线（ROC）的曲线下面积（AUC）值。结果显示，衰老 TCSS 的 AUC 值达到了 0.93，超过了 p16（AUC = 0.65）、p21（AUC = 0.85）和 CS 评分（AUC = 0.63）（图 4C）。为了进一步验证其预测功效，我们又编制了三个队列（分别包含衰老T细胞和非衰老细胞）来验证衰老TCSS的功效。在独立验证结果中，三个队列的 AUC 值分别为 0.99、0.90 和 0.86（图 4D）。这些结果进一步凸显了TCellSI 在捕捉T细胞状态特征方面的准确性。

图4. 利用多类样本的RNA-seq转录组数据验证 TCellSI

(A) 使用流式细胞术从 133个样本中纯化出的 14 种不同T细胞类型的批量 RNA 序列样本中比较 TCSS 的点阵图。(B) 说明 TCSS 在 516 名 COVID-19（2019 年冠状病毒病）患者与 368 名健康人外周血样本中的分布情况。(C) 在包含 178 份衰老和非衰老T细胞样本的队列中，衰老 TCSS 的 AUC（曲线下面积）值为 0.93，在预测衰老方面优于其他经过验证的标记物，包括 p16 表达、p21 表达和细胞衰老评分（CS 评分）。(D) 衰老 TCSS 表现出卓越的性能，在所有三个队列中都能准确预测衰老的T细胞，AUC 超过 0.85。队列 1 包含 105 个样本，队列 2 包含 59 个样本，队列 3 包含 16 个样本。**P < 0.01，***P < 0.001。

案例研究及结果

案例1：TCellSI 计算的 TCSS 对免疫检查点阻断疗法 (ICB) 的影响

为了研究T细胞状态对癌症免疫疗法结果的影响，我们使用 TCellSI 算法分析了来自 ICBatlas的 ICB 治疗数据。我们从 14 个数据集的 5 种癌症类型中收集了 674 份接受抗 PD-1 疗法、抗 PD-L1 疗法、抗 CTLA-4 疗法或不同疗法组合的样本。我们选择了四种效应TCSS指标进行进一步探讨：细胞毒性、辅助作用、增殖和终末耗竭。与 ICB 治疗前（Pre）阶段相比，在 ICB 治疗中（On）阶段观察到四个效应细胞 TCSS 指标的丰度显著增加（图 5A）。结果表明，ICB 治疗后效应T细胞处于活化状态。此外，在 ICB 治疗的开启阶段，与非应答者（NR）相比，应答者（R）的效应T细胞 TCSS 有更明显的增加（图 5B）。在 ICB 治疗的整个开启阶段，与低 TCSS 患者相比，高效应细胞 TCSS 患者的总生存期（OS）明显改善（图 5C）。这些研究结果表明，TCSS指标与ICB治疗期间的免疫细胞浸润密切相关，可作为评估ICB疗效的重要标志物。

图5. TCSS 指标对 ICB 治疗的影响

(A) ICB（免疫检查点阻断）治疗前（Pre）和治疗中（On）的四个效应物 TCSS 指标（细胞毒性、辅助细胞、增殖和终末耗竭）存在显著丰度差异，On 组的效应物 TCSS 指标水平更高。(B) 在对 ICB 治疗无反应者（NR）和有反应者（R）之间，观察到四种效应物 TCSS 指标的丰度存在显著差异，R 组的效应物 TCSS 指标水平更高。(C) 生存曲线显示，在接受 ICB 治疗的癌症患者中，高水平的四种效应物 TCSS 指标与 OS 的延长显著相关。*p < 0.05，**p < 0.01，***p < 0.001。

案例2：泛癌背景下 TCSS 的免疫学特征和预后影响

T 细胞功能与肿瘤免疫逃逸有关，可对治疗方法和预后产生重大影响。为了研究T细胞状态对肿瘤免疫的影响，我们采用了 "利用表达数据估算恶性肿瘤组织中的基质细胞和免疫细胞"（ESTIMATE）算法，评估了癌症基因组图谱（TCGA）中33种癌症类型的免疫分数（免疫细胞比例）和肿瘤纯度（肿瘤成分比例）。通过评估 9800 多份癌症样本中的四种效应T细胞状态，并将它们与免疫分数（ImmuneScore）和肿瘤纯度（TumorPurity）相关联，我们观察到它们与免疫分数（ImmuneScore）普遍呈正相关，而与肿瘤纯度（TumorPurity）呈负相关（图 6A）。为了进行多样性验证，进行了三种免疫相关评估：ImmuCellAI计算的浸润分数（InfiltrationScore）、ImmPort（免疫学数据库和分析门户网站）提供的抗肿瘤通路水平以及Bagaev提出的功能基因表达特征（Fges）。在所有癌症中，细胞毒性 TCSS 升高的患者的浸润分数往往较高。大多数 ImmPort 通路（抗原处理和表达、抗菌素、B 细胞受体信号通路、趋化因子及其受体、细胞因子及其受体、白细胞介素及其受体、自然杀伤（NK）细胞细胞毒性、T 细胞受体信号通路和肿瘤坏死因子（TNF）家族成员及其受体）的活性与泛癌症背景下的细胞毒性 TCSS 呈正相关。此外，包括抗原处理、细胞毒性T细胞和 NK 细胞、B 细胞、抗肿瘤微环境和检查点抑制在内的 Fges 与细胞毒性 TCSS 呈正相关（图 6B）。此外，我们还研究了细胞毒性 TCSS 对患者生存期的影响。Kaplan-Meier（KM）曲线显示，细胞毒性 TCSS 与多种癌症的总生存期（OS）显著相关。对于 ACC、BLCA、BRCA、CESC、DLBC、HNSC、LIHC、LUAD、OV、SARC、SKCM、THCA 和 UCEC，细胞毒性 TCSS 对患者的长期生存有积极影响，但对于其他癌症类型，如 ESCA、GBM、KIRC、KIRP、LAML、LGG 和 UVM，则呈现出相反的趋势（图 6C）。

图6. 泛癌症背景下 TCSS 的免疫学特征和预后影响

(A)饼图说明了免疫分数（ImmuneScore）和肿瘤纯度（TumorPurity）之间的相关性，免疫分数（ImmuneScore）和肿瘤纯度（TumorPurity）是使用ESTIMATE（使用表达数据估算恶性肿瘤中的STromal和免疫细胞）算法以及四种效应TCSS指标（细胞毒性、辅助细胞、增殖和终末耗竭）计算得出的，涉及33种癌症类型。一般来说，四种效应因子 TCSS 指标与免疫分数（ImmuneScore）呈正相关，与肿瘤纯度（TumorPurity）呈负相关。(B) 热图描述了 33 种癌症类型中三种免疫相关评分指标（ImmuCellAI 计算的浸润分数、ImmPort 数据库生成的抗肿瘤途径水平和 Bagaev 提出的 Fges）与细胞毒性 TCSS 之间的相关性。总体而言，TCSS 与这些免疫相关评分指标呈正相关。(C）生存曲线显示，细胞毒性 TCSS 与多种癌症的总生存期（OS）显著相关。*p < 0.05。

讨论

人类T细胞在免疫监视、检测感染和其他威胁、维持全身保护性免疫方面发挥着关键作用。它们是免疫疗法、移植和自身免疫的重要靶标。然而，T细胞的作用和状态呈现出显著的多样性。这种多样性不仅体现在它们的不同类型上，还体现在它们可能表现出的不同静息、活化和抑制状态上。例如，Temra表现出衰老的特征，被认为是衰老T细胞的代表。Tn处于分化的初期，被认为显示出最少的免疫细胞活性。Tex被认为表现出高度的T细胞衰竭状态。这种复杂性突出表明，除了简单地识别T细胞亚群之外，还需要先进的工具来准确评估免疫环境中的T细胞状态。

TCellSI就是为了应对这些挑战而开发的，它利用转录组数据来评估组织或血液中的T细胞状态，使用特定的标记基因组和编译的参考谱，而不是简单地估计T细胞亚群的丰度。虽然现有的方法可以从转录组数据中估算出不同类型T细胞的丰度，但它们并不能完全解决在免疫反应中评估T细胞特定状态的难题。TCSS的分值从0到1不等，研究人员可以量化八种不同的T细胞状态，包括静息、调节、增殖、辅助、细胞毒性、初审衰竭、终末耗竭和衰老，是预测T细胞状态的综合方法。通过关注T细胞的状态，TCellSI提供了对免疫反应更细致入微的理解。

在使用各种T细胞类型的模拟和真实的RNA-seq数据根据已知细胞类型特征对TCSS进行评估后，证实TCSS能有效识别T细胞状态，在捕捉T细胞真实特征方面优于既有特征。此外，TCSS还能从血液样本中正确代表免疫缺陷疾病（如 COVID-19）中的T细胞状态。各种状态下的肿瘤浸润T细胞可作为预后因素和疗效预测因子。效应TCSS指标显示，不同患者对ICB疗法的反应存在显著差异，这表明TCSS可作为评估疗效的重要标志。此外，细胞毒性TCSS与免疫浸润、抗肿瘤通路活性、抗肿瘤功能特征以及泛癌症谱的预后密切相关，凸显了其在癌症免疫学研究中的重要作用。

我们的研究有几个局限性需要解决。首先，T细胞状态的划分不是特别详细。需要对T细胞状态的分类进行更详细的研究。其次，TCSS通常使用转录组数据计算。当应用到scRNA-seq数据时，不确定这类数据固有的零值问题是否会影响计算结果和准确性。

总之，TCellSI为评估T细胞状态提供了一个全面的框架，使我们能够深入了解免疫环境、免疫缺陷和治疗效果。它在改善免疫疗法效果方面具有巨大潜力，可实现量身定制的癌症治疗，并增进我们对各种疾病中T细胞动态的了解。

方法

八种T细胞状态的特异性标记基因集和参考谱的制备

首先，我们通过整合大量文献中的标记基因，为每种T细胞状态建立了八个特定的标记基因集（表 S1）。对于以细胞分裂相关标记基因过多为特征的增殖状态，我们采用随机森林递归特征消除算法（RF-RFE），利用单细胞smart-seq2数据集 GSE140228筛选与T细胞增殖相关的重要基因。该数据集包括119 个增殖T细胞和 6773 个非增殖T细胞。随后，我们确定了九个最关键的T细胞增殖相关基因以及T细胞标记物，作为这种状态的特定标记基因集（图 S1）。最后八种T细胞状态的特异性标记基因集中包含的基因数量从 5个到 38 个不等。

我们选择从 GEO (Gene Expression Omnibus，http://www.ncbi.nlm.nih.gov/geo/)的 GSE99254中获得的单细胞 smart-seq2 数据中编译T细胞的 TCellSI 参考谱。首先，我们提取了可代表不同T细胞状态的七大类T细胞，包括Tn、Th（Th1/Th17/Tfh）、Tprolif、Treg、Tc、Terma、Tex，最后共保留了11756个单细胞，并通过UMAP进行了展示（图S2A）。我们使用 SAVER（通过表达恢复的单细胞分析）对其进行处理，以纠正掉出问题。为了确定T细胞衰竭的两种状态，我们使用了 SAVER（通过表达恢复的单细胞分析）：我们使用 monocle进行了伪时间分析。通过这种方法，我们勾勒出了 Tex 细胞的分化轨迹（图 S2B）。将伪时间分析确定的差异基因与初始耗竭和终末耗竭状态的特定标记基因集进行交叉，最终得到了沿分化轨迹分布不同的四个基因，包括 GZMB、HAVCR2、IL7R 和 TCF7（图 S2C）。结合这四个基因的分布，我们确定了处于 "初始耗竭 "和 "终末耗竭"状态的 Tex 细胞（图 S2D）。用于建立参考谱的八种T细胞类型主要表现出特定的相应细胞状态。Tn对应于静息状态，Treg对应于调节状态，Tprolif对应于增殖状态，Th对应于辅助状态，Tc对应于细胞毒性状态，初始耗竭 Tex对应于初始耗竭状态，终末耗竭Tex对应于终末耗竭状态，Temra对应于衰老状态。最后，对 8 个T细胞的 scRNA-seq 数据表达谱进行平均，形成最终的 TCellSI 参考谱。

TCellSI 的详细算法和工作流程

用于计算 TCSS 指标的 RNA-seq 样本被转换为 TPM 的归一化表达，然后这些 TPM 值按如下方法进行log₂ 转换：

为便于比较数据集中不同样本的表达水平，根据以下公式，使用 3,686个管家基因的表达量对表达水平进行了校正：

为了控制排列总数，我们将表达矩阵中的所有基因按基因表达量排序，从高到低分为 50个等级，然后在每个等级中随机选择 100 个基因作为背景基因（共 5000 个基因）。经过上述步骤后，得到新的表达矩阵 X（基因×样本），X 包含背景基因的表达量加上某一T细胞状态的基因集（标记物）。然后，我们首先对 X 中的每一列进行排序，计算出相对秩矩阵。换句话说，我们计算了 X 中每个样本的所有标记基因的秩列表（R.marker）。基于 Mann-Whitney U 统计的思想，TCSS'对数据集的大小和异质性具有鲁棒性，其计算方法如下：

其中，R.marker_i表示第 i 个标记在所有标记和背景基因集合中的排序值；n 表示标记基因的数量，而 N 是背景基因和标记数量的总和。

此外，为确保较高的 TCSS 值是由于其特定状态标记基因集中每个标记的表达量普遍较高，而不是由于检测错误或其他因素造成的单个标记的极端过表达，TCellSI 引入了 TPM 归一化参考谱，与 TCSS' 结合使用以计算 TCSS，如下图所示：

其中 percentage_i表示第 i 个标记在标记集中的权重。sp_i表示标记集中第 i个标记在 X 中的表达水平，而 ref_i则指同一标记在参考图谱中的表达水平。变量 n表示标记基因的总数。通过上述过程，我们就得到了特定T细胞状态的 TCSS。需要对每种T细胞状态进行上述处理，将八个特定的标记基因组纳入其中。

TCSS 以单个样本中八个特定标记基因集表达水平的相对排序为基础，对数据集组成的微小变化具有稳健。

数据收集和处理

为了验证 TCSS，我们利用了通过 GEO 的 GSE98638 和 GSE108989 获取的scRNA-seq数据从而得到的模拟样本，其中包括不同类型的T细胞。这两个数据集分别包含 5,063个和11,138 个T细胞。我们遵循了原始研究提供的T细胞注释。我们采用了下采样的方法来生成一批新的具有单一T细胞亚型的大量模拟样本。在下采样的过程中，我们随机选取一种T细胞亚型的 60% 的细胞，取其表达值的平均值来生成新的样本。这一过程要执行多次，相当于每种类型细胞总数的五分之一。

表 S2 详细列出了通过流式细胞仪分拣的T细胞样本的真实RNA-seq数据。其中包括来自 11个不同项目的 133 个样本的信息：GSE199324、GSE160705、GSE232436、GSE211044、GSE173377、GSE151204、GSE179832、GSE198296、GSE145503、GSE159774 和 GSE186463。涉及的T细胞类型包括幼稚 Treg（nTreg）、效应 Treg（eTreg）、幼稚T细胞（Tn）、干记忆T细胞（Tscm）、中枢记忆T细胞（Tcm）、效应记忆T细胞（Tem）、细胞毒性T细胞（Tc）、终末分化的效应记忆T细胞（Temra）、辅助性T细胞（Th）、滤泡辅助性T细胞（Tfh）、增殖T细胞（Tprolif）、非增殖T细胞（non-Tprolif）和衰竭T细胞（Tex）。

由 516 名 COVID-19 患者外周血样本组成的原始数据队列来9个项目，详见表 S3。这些项目包括ERP131828、SRP274382、SRP293106、SRP305482、SRP306910、SRP314892、SRP316381、SRP325729和SRP359999。此外，还从 18个不同的项目中收集了368份健康人的外周血样本（表 S4），特别是 ERP016409、ERP120543、SRP045500、SRP162348、SRP173298、SRP173378、SRP175005、SRP185630、SRP214077、SRP219679、SRP241873、SRP274382、SRP281425、SRP289418、SRP341241、SRP343650、SRP344375、SRP312015。对于 RNA-seq 原始数据，使用 FastQC 进行了数据质量控制。使用 Trimmomatic 消除适配序列，生成高质量的纯净读数。随后使用 HISAT2 和 Samtools 将这些纯净读数映射到人类参考基因组 GRCh38。应用 StringTie 计算每个样本的转录本丰度（TPM）。

为了评估TCSS的预测功效，我们从9个不同的数据集（表S5）中收集了124个通过流式细胞术分类的T细胞样本。这些数据集包括 GSE144132、GSE173377、GSE175550、GSE180532、GSE198296、GSE199324、GSE211044、GSE216026 和 GSE97862，共包含 50 个Temra样本和74个其他类型的T细胞样本。此外，我们还用177份细胞样本（表 S6）对衰老 TCSS 进行了验证，其中包括 Temra、Tn、Tcm、Tem、B 细胞、单核细胞、髓样树突状细胞（mDC）、类浆细胞（pDC）和 NK 细胞等多种细胞类型。这 177 份样本被分为三组："队列 1 "有 105个样本（GSE216529 和 GSE106542）；"队列 2 "有 56个样本（GSE186463）；"队列 3 "有 16个样本（GSE198296）。

ICB 疗法的数据来自ICBatlas 和 ICBcomb，另外还可通过基因型和表型数据库（dbGaP，http://www.ncbi.nlm.nih.gov/gap/）和序列读取档案（SRA，http://www.ncbi.nlm.nih.gov/sra/）获取。黑色素瘤样本收集自九个已发表的患者队列：Abril-Rodriguez (dbGaP: phs001919.v1.p1), Amato (SRA: SRP250849), Auslander (SRA: SRP150548), Gide (SRA: ERP105482), Hugo (SRA: SRP070710), Liu (dbGaP: phs000452. v3.p1), Riaz (SRA: SRP094781), Van-Allen (SRA: SRP011540)和 Zappasodi (SRA: SRP302761）。非小细胞肺癌（NSCLC）样本来自 Cho (SRA: SRP183455)和 Jung (SRA: SRP217040)患者队列。Kim (SRA: ERP107734)提供了胃癌（GC）样本。肾细胞癌（RCC）样本来自Miao (dbGaP：phs001493.v2.p1)，Zhao (SRA：SRP155030)提供了多形性胶质母细胞瘤（GBM）样本。这些数据也是根据 RNA-seq 原始数据处理的，处理过程与前面提到的相同。

33 种癌症类型的RNA-seq数据来TCGA (The Cancer Genome Atlas，https://portal.gdc.cancer.gov/)。纳入进一步分析的癌症类型如下：ACC、BLCA、BRCA、CESC、CHOL、COAD、DLBC、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PRAD、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、UCEC、UCS、UVM（表 S7）。20种正常组织类型的RNA-seq数据来自GTEx（基因型-组织表达，https://gtexportal.org/）。

代码和数据可用性

使用的数据和脚本保存在GitHub (https://github.com/GuoBioinfoLab/TCellSI/) 中。T细胞系数据来自GEO (http://www.ncbi.nlm.nih.gov/geo/)，单细胞数据也来自 GEO，癌症患者数据来自 TCGA (https://portal.gdc.cancer.gov/)，正常组织数据来自GTEx (https://gtexportal.org/)，免疫疗法队列数据来自dbGaP (https://www.ncbi.nlm.nih.gov/gap/) 和SRA (https://www.ncbi.nlm.nih.gov/sra/)，病毒感染的非癌症外周血样本数据来自SRA。补充材料（方法、图、表、脚本、图表摘要、幻灯片、视频、中文翻译版和更新材料）可在在线DOI或iMeta Science http://www.imeta.science/中找到。

引文格式：

Jing-Min Yang, Nan Zhang, Tao Luo, Mei Yang, Wen-Kang Shen, Zhen-Lin Tan, Yun Xia, Li-Bin Zhang, Xiao-Bo Zhou, Qian Lei, An-Yuan Guo. 2024. "TCellSI: A novel method for T cell state assessment and its applications in immune environment prediction" iMeta 3: e231. https://doi.org/10.1002/imt2.231.

作者简介

杨靖敏（第一作者）

● 华中科技大学生命科学与技术学院与华西医院大数据研究中心联合培养博士生。

● 研究方向是免疫组学数据的生物信息方法构建，目前相关学术成果已发表在iMeta、Small Methods、Cancer Letters等期刊。

张楠（第一作者）

● 华中科技大学生命科学与技术学院与华西医院大数据研究中心联合培养博士生。

● 研究方向是肿瘤免疫学，近 5 年来以第一作者(含共同)身份在Theranostics、Small Methods、iMeta、Cancer Letters、Briefings in Bioinformatics、Journal of Big Data、Cell Proliferation、Molecular Oncology、Cancer Immunology Immunotherapy和 iScience 等杂志上发表SCI 论文。

郭安源（通讯作者）

● 四川大学华西生物医学大数据研究院副院长、研究员，博士生导师。

● 国家自然科学基金委“优青”(2018)。获2020年教育部高校科学研究优秀成果奖 (自然科学) 二等奖 (第一完成人)，连续4年被评为爱思唯尔“中国高被引学者”(2020-2023)，H-index=55。研究方向: 肿瘤生物信息学，包括肿瘤多组学数据挖掘，肿瘤免疫及表达调控等的生物信息方法和数据库构建，及其在肿瘤和细胞外囊泡中的应用研究。研究成果: 建立了一系列有一定国际影响的数据库，如AnimalTFDB、hTFtarget、miRNASNP、EVmiRNA和TCRdb等。开发了转录因子和miRNA在复杂疾病中的共调控方法FFLtool，癌症基因集分析平台GSCA和免疫细胞丰度预测方法lmmuCellAl等。开发了肿瘤免疫治疗联合用药的通用预测方法CM-Drug，发现多个免疫治疗联用药物并验证了taltirelin在黑色素瘤中提高anti-PD1治疗疗效的机制。在Nature lmmunology、Science Translational Medicine、Advanced Science、Cancer Research、Nature Communications、Nucleic Acids Research、Briefings in Bioinformatics等期刊发表论文100余篇，总引用15000多次，包括多篇ESI高被引论文或热点论文。

更多推荐

（▼ 点击跳转）

高引文章 ▸▸▸▸

iMeta | 引用13000+，海普洛斯陈实富发布新版fastp，更快更好地处理FASTQ数据

高引文章 ▸▸▸▸

iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法

高引文章▸▸▸▸

iMeta | 高颜值绘图网站imageGP+视频教程合集

1卷1期

1卷2期

1卷3期

1卷4期

2卷1期

2卷2期

2卷3期

2卷4期

3卷1期

2卷2期封底

2卷4期封底

3卷2期

3卷3期

3卷3期封底

3卷4期

3卷4期封底

1卷1期

期刊简介

“iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊，主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述，重点关注微生物组、生物信息、大数据和多组学等。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行！发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录！2024年6月获得首个影响因子23.7，位列全球SCI期刊前千分之五(107/21848)，微生物学科2/161，仅低于Nature Reviews，同学科研究类期刊全球第一，中国大陆11/514！

“iMetaOmics” 是“iMeta” 子刊，主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任，是定位IF>10的高水平综合期刊，欢迎投稿！

iMeta主页：

http://www.imeta.science

姊妹刊iMetaOmics主页：

http://www.imeta.science/imetaomics/

出版社iMeta主页：

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页：

https://onlinelibrary.wiley.com/journal/29969514

iMeta投稿：

https://wiley.atyponrex.com/journal/IMT2

iMetaOmics投稿：