《ECOLE: Learning to call copy number variants on whole exome sequencing data》
- 期刊:Nature Communication
- 发布时间:2024年1月2日
- ECOLE:学习调用全外显子组测序数据的拷贝数变体
- 摘要:
- 介绍
- Results
- overall ECOLE
- ECOLE achieves high performance in WES-based germline CNV calling
- CNV calling performance of ECOLE on a WGS-based semi-ground truth call set
- CNV calling performance generalizes to other sequencing platforms and capture kits
- CNV calling performance on human expert calls
- Somatic CNV calling performance
- CNV calling performance on merged CNV segments
- Interpretability of the CNV calls
- Insights from ECOLE’sCNVcalls
期刊:Nature Communication
发布时间:2024年1月2日
ECOLE:学习调用全外显子组测序数据的拷贝数变体
摘要:
拷贝数变异(CNV)已被证明对几种遗传性疾病的发病机制有所贡献。在全外显子测序(WES)数据上准确检测CNV一直是临床应用中长期追求的目标。尽管近期在性能上有所改进,但这仍未实现,因为大多数算法在专家整理的金标准调用集上都存在精度低,甚至召回率更低的问题。在这里,我们介绍了一个基于深度学习的体细胞和生殖系CNV调用器,用于WES数据,名为ECOLE。该模型基于transformer架构的变体,学习每个外显子调用CNV,使用在匹配的WGS样本上做出的高置信度调用。我们进一步通过迁移学习,使用少量专家调用对模型进行训练和微调。我们展示了ECOLE首次在人类专家标记的数据上实现了高性能,精度为68.7%,召回率为49.6%。这分别比下一个最佳表现方法的精度和召回率提高了18.7%和30.8%。我们还展示了使用肿瘤样本的相同微调策略,ECOLE能够在不需要对照样本的情况下检测到膀胱癌样本中的RT-qPCR验证变异。ECOLE可在 https://github.com/ciceklab/ECOLE
上获取。
介绍
拷贝数变异 (CNV) 是许多疾病(如癌症 1,2、精神分裂症 3,4 和自闭症 5)的众所周知的重要风险因素。高通量测序 (HTS) 在过去十年中一直是检测 CNV 的标准技术。使用全基因组测序 (WGS) 数据的各种 CNV 检测算法都非常成功 6–12,灵敏度和精度值分别高达 96% 和 97%13。这与处理全外显子组测序 (WES) 数据的算法相比,精度非常低 14–16。WGS 是一个更适合此任务的平台,因为它不使用会引入长度、GC 和参考偏差的靶向探针 17–19。另一方面,WES 在临床上更具吸引力,因为它比 WGS 更紧凑、更易于解释且更实惠。不幸的是,由于这些限制,WES 技术限制了 CNV 检测的临床应用。
我们最近开发了一种基于深度学习的抛光方法,该方法在纠正许多基于WES的生殖系CNV调用器的调用方面已被证明是有用的,这些调用器使用在匹配的WGS样本上做出的更值得信赖的调用16。虽然这是向前迈出的重要一步,但要使其成为临床使用的可行选项,仍然存在瓶颈。第一个问题是结果的灵敏度。抛光器只能在基础算法返回的调用(例如,删除)上工作。它要么改变这些调用(例如,变为复制),要么中和它们(例如,变为无调用)。虽然这有助于降低假发现率,但对灵敏度的影响有限,因为抛光器不能进行新的调用(例如,将无调用转换为删除/复制)。不幸的是,由于性能非常低,灵敏度大多不在基于WES的CNV调用领域的范围内。第二个问题是即使在抛光后,精确度性能在专家整理的CNV调用集上也受到限制,这些调用集被视为黄金标准真相(高达35%)。这是因为抛光器使用自动化的基于WGS的CNV调用作为模型训练的标签,但这些标签(调用)与人类专家决策的分布非常不同。不幸的是,这种手动整理的调用集的规模极小,这禁止了训练机器学习模型。因此,一个在人类专家整理的CNV调用集上实现高性能的调用器将使基于WES的生殖系CNV检测在临床上得到广泛应用。
在这里,我们首次介绍了一种基于深度学习的方法(ECOLE:基于外显子的拷贝数变异调用学习器),它能够独立地学习在WES数据上执行体细胞****和生殖系CNV调用。我们的模型基于transformer模型的一个变体,这是自然语言处理领域处理序列数据的最先进方法。ECOLE处理每个外显子上的读取深度信号。它学习需要关注信号的哪些部分,以及在哪种上下文(即染色体)中调用CNV。它使用在匹配的WGS样本上获得的高置信度调用(即标签)作为半真实情况。ECOLE显著提高了下一个最佳方法的外显子精度和召回率,在自动化WGS调用的基准测试中分别提高了13.5%和16.6%。它是唯一具有平衡精度和召回率的方法。此外,我们首次提出使用迁移学习和微调模型参数,使用少量人类专家标记的样本。我们展示了这种方法在预测人类标签方面分别提高了大约18%和30%的精度和召回率。同样,我们使用微调方法使ECOLE适应于使用膀胱癌样本调用体细胞变异。我们展示了我们能够在16个膀胱癌样本中的13个中检测到PCR验证的拷贝数异常,而最先进的方法即使在抛光后也只能在2个样本中检测到验证的调用。凭借作为生殖系和体细胞CNV调用器的能力,并且能够通过微调轻松适应疾病和人类专家,我们提议ECOLE作为一个可行的选项,以扩大在临床上使用外显子测序技术进行CNV检测的应用。
Results
overall ECOLE
我们的模型 ECOLE 是一个深度神经网络模型,其核心使用了 Transformer 架构 20 的变体。Transformer 是一个可并行化的编码器-解码器模型,它接收输入并交替应用多头自注意力层、多层感知器 (MLP) 和层规范化层。Transformer 架构在自然语言处理领域 20 的循环神经网络信号处理以及最近在计算机视觉领域 23 的卷积模型信号处理方面取得了最先进的成果。图 1 显示了系统架构的概览。ECOLE 在碱基对分辨率上采用外显子上的读取深度。在这里,我们只关注编码区域。因此,映射在外显子之外的读取和相应的读取深度信号被忽略。使用多层感知器将此信息转换为读取深度嵌入。我们使用要学习的分类标记,它与读取深度嵌入连接在一起,就像在参考文献中所做的那样。 23. 然而,在我们的设置中,这个标记是染色体特定的,以便为分类任务添加更多上下文。最后,模型使用位置编码向量,该向量由转换后的读取深度编码和分类标记相加而成。该编码告知模型所考虑外显子的绝对位置。ECOLE 将 3 个变换器块应用于此向量。这样做,它可以了解特定碱基对上的读取深度相对于同一外显子区域内其他碱基对上的读取深度的重要性。也就是说,ECOLE 使用注意力机制来学习在哪个上下文中关注哪些碱基对(即删除、重复或无调用)。这类似于自然语言,其中同一个词(读取深度)在不同的段落(外显子)和文本的不同章节(染色体)中具有不同的重音。最后,我们使用双层感知器对外显子进行分类,该感知器使用最终变换器块的输出。 ECOLE 使用在 1000 基因组 WGS 数据上获得的更高置信度 CNV 调用作为“半”地面真相(即与 WES 相比)来训练模型。我们使用 CNVnator 算法作为基于 WGS 的种系 CNV 调用器,该算法具有高灵敏度(86-96%)和高精度(80-97%)13。
ECOLE 能够将基于 WGS 的 CNV 调用器的高度精确决策转移到 WES 领域,以实现最先进的性能。然而,文献中没有任何算法能够实现高性能。人类专家标记的数据适用于极少量的样本,这不足以训练像 ECOLE 这样的复杂模型。在这里,我们首次在 CNV 调用领域应用迁移学习,并创建针对某些标签集定制的变体 ECOLE 模型。首先,我们仅使用 4 个人类专家标记的样本进一步调整 ECOLE 模型(使用半地面实况训练)的参数并生成 ECOLEFT-EXPERT 模型。其次,我们再次使用 Genome in a Bottle (GiaB) 联盟生成的基于 MetaSV 的24 CNV 调用集微调基础 ECOLE 模型的参数,仅使用 NA12891 样本(Ashkenazi 父亲),并生成 ECOLEFT-GiaB 模型。最后,为了让模型能够调用体细胞 CNV,使用带有半真实标签 (CNVnator) 的膀胱癌样本对基础 ECOLE 模型的参数进行微调。我们将此模型称为 ECOLEFT-SOMATIC。
ECOLE achieves high performance in WES-based germline CNV calling
评估标准。我们将每个外显子的调用视为我们的固定评估单位。也就是说,对于每个外显子,ECOLE 都会进行 CNV 预测。对于比较的方法,如果它们报告的 CNV 区域大于外显子(例如,合并的 bin、外显子等),我们会将它们的 CNV 调用片段与外显子相交。每个外显子都有一个唯一的半真实标签(即删除、重复或无调用),该标签与同一样本的 WGS 数据上的调用相对应。有关此过程的直观演示,请参阅补充图 1。
CNV calling performance of ECOLE on a WGS-based semi-ground truth call set
我们将 ECOLE 的性能与文献中最先进的种系 CNV 调用程序在 1000 Genomes WES 样本上的性能进行了比较(测试拆分,有关数据集详细信息,请参阅第 4.1 节)。使用 CNVnator 对同一个体的 WGS 样本进行分析,可获得半真实 CNV 调用。我们在补充图 2 和 3 中展示了训练集中删除和重复调用大小的分布。比较的方法是 XHMM、CODEX2、CONIFER、CNV-kit、Control-FREEC、GATK17,25–29。其中,CNV-kit 和 Control-FREEC 预测整数拷贝数,而其他方法报告 CNV(即删除或重复)。为了能够公平地比较它们的性能,我们对它们的预测进行了离散化。我们还使用可用的调用优化器 DECoNT 模型优化了这些工具的调用集,并将 ECOLE 与这些算法调用集的优化版本进行比较(有关比较方法的详细信息,请参阅第 4.2 节)。图 2 显示了每种算法的精度、召回率和 F1 分数结果。
补充表 1 显示了相应的值,补充表 2 显示了相应的混淆矩阵。ECOLE 在其他算法的均匀优化版本中实现了最佳平均精度值,并且比 DECoNT 优化的 XHMM 调用集(DECoNT-XHMM)的下一个最佳性能提高了 13.5%。同样在删除和重复精度方面,我们分别提供了 21.9% 和 5.2% 的改进,这是最好的结果。ECOLE 实现了 50.1% 的整体召回率,比第二好的模型 DECoNT-Control-FREEC 提高了 16.6%。而 ECOLE 能够实现高召回率,它也是第一种能够平衡精度和召回率的方法。
ECOLE 的 F1 分数为 60.6%,比 DECoNT-Control-FREEC 调用集获得的第二佳结果提高了 25.4%。对于所有其他方法,如果精度高,则由于调用次数少导致召回率低;如果调用率高,则由于预测次数多导致精度低。另请参见补充图 4 中的 ECOLE 精度-召回率曲线。我们还分析了 ECOLE 的特异性 (NPA) 和阴性预测值 (NPV) 性能,并将其与其他工具进行了比较。我们观察到 ECOLE 实现了 99.9% 的整体 NPA,并以 99.6% 的整体 NPV 优于其他工具。有关详细的 NPV 和 NPA 结果,请参见补充表 3 和 4。我们还将 ECOLE 与 CNLearn 进行了比较,后者是一种基于随机森林的方法,可创建四个基于 WES 的调用者的集合(有关详细信息,请参阅第 4.2 节)。我们通过与 Santhosh Girirajan 的个人沟通获得了 28 个样本的结果,并比较了这些样本的结果。如表 1 所示,ECOLE 在所有考虑的指标中表现都明显更好,请参阅补充表 5 了解相应的混淆矩阵。
CNV calling performance generalizes to other sequencing platforms and capture kits
我们用于训练 ECOLE 模型的 WES 数据是使用 Illumina HiSeq 2000 和 Illumina Genome Analyzer II 平台获得的。在这里,我们表明 ECOLE 的性能可以推广到训练期间未使用的其他测序平台。在这里,我们使用 (i) BGISEQ 500、(ii) HiSeq 4000、(iii) NovaSeq 6000 和 (iv) MGISEQ 2000 获得的 NA12828 样本的测序数据来测试 ECOLE 模型。我们在训练过程中没有使用该样本的任何相关数据。结果显示在补充表 6 和补充图 5 中。相应的混淆矩阵请参见补充表 7-10。我们观察到 ECOLE 是所有类别中表现最佳的方法,总体 F1 分数在 49.9% 到 58.6% 之间。请注意,由于这些平台是由完全不同的制造商制造的,因此 BGISEQ 和 MGISEQ 平台的性能对于这组实验而言相对更为重要。在 BGISEQ 和 MGISEQ 中,我们观察到 ECOLE 仍然是所有考虑的基准中表现最佳的工具,与排名第二的方法 DECoNT-Control-FREEC 相比,其总体 F1 分数至少提高了约 14%。再次重申,ECOLE 是唯一一种具有平衡精度和召回率的方法。同样,在 NovaSeq 6000 和 HiSeq 4000 平台中,我们观察到总体 F1 分数分别提高了约 40% 和约 30%。这些结果证明了我们的模型在处理不同系统引入的系统偏差和噪声方面的稳健性。我们表明,当没有足够的 WGS 匹配数据样本来训练在目标平台上获得的 ECOLE 模型时,我们的模型可以跨平台使用。
我们还分析了 WES 捕获检测设计对 ECOLE 的 CNV 调用的影响。我们比较了 ECOLE 在使用 NimbleGen SeqCap v3 和 SeqCap EZ Human Exome Library v3.0 捕获试剂盒测序的 NA12878 样本上的性能,这两个试剂盒分别通过单个探针覆盖了 99.3% 和 67.8% 的外显子组。大约 85% 的探针组相互重叠。如补充表 11 所示,ECOLE 对这两种捕获试剂盒都获得了相似的分数。这是意料之中的,因为即使断点不落入同一外显子内的同一捕获区域,模型也会通过位置编码和染色体特定的分类标记了解同一染色体内其他外显子的读取深度和标签信息。因此,读取深度差异和对其他外显子的决策会影响对外显子的决策。我们观察到探针数量不会显著影响 SeqCap EZ Human Exome Library v3 捕获试剂盒的模型性能(见补充表 12)。对于 NimbleGen SeqCap v3,单个探针覆盖的外显子的性能优于多个探针覆盖的外显子。NimbleGen SeqCap v3 中只有少数多个探针覆盖的外显子(0.7%),它们大多位于 9 号和 10 号染色体上(51%)。如第 2.5 节所述,即使对使用相同捕获试剂盒测序的样本进行预测,ECOLE 的表现也相对较差。这可能解释了 NimbleGen SeqCap v3 在多个探针覆盖的外显子上性能低下的原因。我们还根据外显子的 GC 含量对其进行分层,并比较 ECOLE 在两种捕获试剂盒的不同 GC 含量率下的性能。我们观察到 GC 含量不会显著影响整体性能。结果可以在补充图 6 和 7 中看到。
CNV calling performance on human expert calls
在这里,我们使用 Chaisson 等人制作的经过高度验证的 CNV 调用集 30 作为基本事实来测试基于 WES 的 CNV 调用器的性能。请注意,此调用集包含来自 1000 基因组计划 WGS 样本的 9 个人的 CNV 调用。这是一个由人类专家策划的共识调用集,它依赖于 15 个基于 WGS 的 CNV 调用器的结果与使用具有单碱基对断点分辨率的 PacBio 生成的结构变异进行比较。我们使用来自此调用集的 8 个具有匹配 WES 数据的样本。其中 4 个样本的调用用于训练,其余的用于测试(有关详细信息,请参阅方法)。
我们在补充图 8 和 9 中展示了测试集(Chaisson 等人)的删除和重复事件大小的分布。结果如图 3 所示。有关此图中的值,请参阅补充表 13,有关相应的混淆矩阵,请参阅补充表 14。所有比较的 CNV 调用器及其完善版本在预测人类专家调用时的 F1 分数性能远低于预测基于 WGS 的半地面实况标签(即 CNVnator 调用)。最高的 F1 分数性能达到 ~10%,而不是 ~20%,并且没有算法显示出平衡的精确度和召回率。这些与参考文献 16 中的观察结果一致。
我们还观察到 ECOLE 表现出较低的性能。与下一个最佳方法 CONIFER 相比,它仅提供了 3.7% 的整体 F1 分数提高。这是预料之中的,因为该数据集上的标签分布与 ECOLE 训练时使用的标签分布不同。与我们训练集中由 CNVnator 标记的样本相比,Chaisson 等人研究中的样本的 DEL 调用多 4 倍,DUP 调用少 2 倍。这个调用集比我们用来训练 ECOLE 的调用集小两个数量级以上,这禁止从头开始训练 ECOLE 模型。
为了解决这个问题,我们使用迁移学习,并使用 Chaisson 等人遗漏的 4 个样本来微调训练好的 ECOLE 模型的参数。也就是说,我们使用人类专家标记的样本进一步训练最终的 ECOLE 模型并调整模型权重。我们将这个微调模型称为 ECOLEFT-EXPERT。请注意,其他方法都没有办法整合这些信息。我们观察到 ECOLEFT-EXPERT 的表现优于包括基线 ECOLE 在内的所有其他方法,总体精度为 68.7%,总体召回率为 49.6%。
它有效地平衡了精度和召回率,并在所有类别中获得最高的 F1 分数。它在 F1 分数方面提供了显着的改进,在删除、重复和整体 F1 分数方面分别比下一个最佳方法提高了 42.6%、50.5% 和 46.8%。 ECOLEFT-EXPERT 的 NPV 和 NPA 也比 ECOLE 更好,总分分别为 99.4% 和 99.7%。这些结果表明,ECOLEFT-EXPERT 的正向和负向预测比 ECOLE 更准确。ECOLEFT-EXPERT 分别将重复和删除调用的假阴性数量减少了 1088 和 5234。详细的 NPV 和 NPA 结果分别见补充表 15 和 16。
为了测试微调是否适用于独立调用集,我们使用 GiaB 为阿什肯纳兹父亲 (NA12891) 提供的调用集对基本 ECOLE 模型进行微调,以获得 ECOLEFT-GiaB 模型。我们在阿什肯纳兹母亲 (NA12892) 上测试了这个模型。基础 ECOLE 模型实现了 0.8% 的准确率和 8.1% 的召回率,而 ECOLEFT-EXPERT 实现了 1.25% 的准确率和 5.5% 的召回率。另一方面,ECOLEFT-GiaB 实现了 68.6% 的准确率和 58.6% 的召回率。这一结果表明,即使是单个带标签的样本,也可以有效地配置模型以处理独立的 CNV 调用集。
Somatic CNV calling performance
ECOLE 是一款专门针对种系 CNV 调用的软件,因为它是使用正常组织样本进行训练的。与基于 WGS 的自动调用和人类专家调用之间的差异类似,种系 CNV 调用和体细胞 CNV 调用具有不同的分布。这是由于肿瘤和对照样本的 WES 读取深度信号不同。因此,专门为体细胞 CNV 调用设计了特定的调用器或特定的调用器模式,这通常需要配对的对照和肿瘤样本来解释差异,从而增加了计算和测序成本。在这里,我们使用相同的微调策略,使用来自 31 个膀胱癌样本(SRA:SRP017787)更新 ECOLE 模型的参数。
本研究报告了 16 个膀胱癌样本的匹配 WES 和 WGS 样本以及 4 个区域中的 RT-qPCR 验证的 CNV。这些事件与以下基因相一致并影响相应的样本:CDKN2A/B 缺失(样本 B63、B112 和 B80-0)、CCDN1 重复(样本 B37 和 B103)、DHFR 重复(样本 B15、B18、B19、B24、B34 和 B50)以及 ERBB2 重复(样本 B9、B23、B80、B80-5 和 B86)。我们使用 (i) 在样本 B112、B24 和 B80 的 WGS 数据上获得的 CNVnator 半地面真实标签和 (ii) 在样本 B112、B24、B80 的匹配 WES 数据上获得的相应 WES 读取深度信号将 ECOLE 微调为 ECOLEFT-SOMATIC。
我们使用剩余的 13 个膀胱癌样本来测试我们是否可以检测到每个样本的 RT-qPCR 验证的 CNV。我们将 ECOLEFT-SOMATIC 与始终获得最高精度的 XHMM、其完善的调用集 DECoNT-XHMM 和 ECOLE 进行了比较。如表 2 所示,XHMM 能够检测到一个样本 (B112) 中 CDKN2A/B 基因中经过验证的缺失事件,并且不会对剩余的 10 个样本返回任何调用。XHMM 调用集的完善版本验证了这些调用。ECOLE 不会对验证区域中的任何样本进行任何调用。另一方面,ECOLEFT-SOMATIC 能够检测到相应的 13 个测试样本(微调中使用的样本以外的所有样本)中的所有 13 个经过验证的 CNV。这表明该模型很灵活,可以轻松配置为进行体细胞调用,甚至不需要对照样本。
我们还计算了使用 CNVnator 获得的 13 个测试样本的匹配 WGS 数据上获得的半真实标签的全基因组精度、召回率和 F1 分数性能。请参阅补充表 17 了解相应的混淆矩阵。我们发现 ECOLE 的精度和召回率都低于其他方法。表 3 和补充图 10 显示 ECOLEFT-SOMATIC 优于其他方法,并且与下一个最佳方法相比,F1 分数提高了 25.2%,这表明微调可以提高性能(请参阅补充表 17 了解相应的混淆矩阵)。
ECOLEFT-SOMATIC 用 ECOLE 的一些精度换取了召回率的大幅提升。我们希望确保微调不会充当一个简单的放松阈值,以便 ECOLEFT-SOMATIC 比 ECOLE 进行更多调用以实现更高的召回率。为此,我们放宽了 ECOLE 的调用阈值,使其更加自由(即,即使概率小于 0.33,它也会进行调用)。尽管在这种情况下召回率有所提高,但 ECOLE 无法对任何经过验证的区域进行调用。这表明微调有效地教会了算法如何在体细胞样本中进行调用,而不是作为一种简单的过滤机制。
CNV calling performance on merged CNV segments
评估标准。基于 WES 的 CNV 调用器通常会调用外显子或有时超出外显子边界的 bin,然后使用分割方法将后续调用合并到更大的调用区域中。另一方面,WGS 数据上的地面实况调用通常较短。外显子组上的合并调用可以跨越多个基于 WGS 的调用。要将基于 WGS 的半地面实况标签分配给基于 WES 的调用,需要合并在 WGS 数据上进行的覆盖调用并分配共识标签 16。补充图 11 以视觉方式展示了此过程以供进一步参考。
此过程存在以下问题:首先,由于平滑,它降低了地面实况的分辨率。其次,这导致地面实况随着每个基于 WES 的调用器所作调用的断点而变化。这使得无法形成全局地面实况调用集来计算召回率。这在早期的文献中并不是一个问题,因为方法主要侧重于精度。在这里,我们比较了 ECOLE 与其他算法的精度,因为我们合并了外显子级别的调用,以获得更大的调用片段,这些片段也覆盖了非编码区域。请注意,ECOLE 以碱基对分辨率工作,并为每个外显子进行调用。在这里,我们将后续外显子与相同的调用合并,以获得合并的 CNV 片段,以与其他通常依赖分割步骤的算法进行比较,并比较精度性能。
补充表 18 和补充图 12 显示了 1000 基因组数据集测试样本中每种算法的精度。我们使用合并的 CNV 片段作为所有算法的预测,并使用合并的相同样本的 WGS 数据上获得的半地面实况标签。我们可以观察到,ECOLE 在精度方面的表现与表现最佳的工具 (DECoNTXHMM) 相当。这仍然很重要,因为 ECOLE 在实现这种精度质量的同时,保持了平均召回率指标超过 18% 的改进。显然,ECOLE 能够在更大规模 (合并的 CNV 片段) 上进行调用,就像它能够在高分辨率 (即外显子级别) 上执行一样。我们在补充图 13 和 14 中展示了训练集中删除和重复调用 (合并的 CNV 片段) 的大小分布。我们根据调用大小对 ECOLE 的删除和重复性能进行分层。如补充图所示。 15 和 16 表明,ECOLE 在各种外显子大小下表现良好。具体而言,对于小外显子(50-100 bp)和长度超过 4,000 bp 的外显子,ECOLE 的删除调用性能较低。
这主要是因为这些尺寸范围内的样本数量较少。对于前者,这也是因为信号非常短,因此可能对模型推广来说太嘈杂。至于重复性能,我们在 50-100 bp 范围内没有任何事件(从图中排除),并且看到非常长的外显子的召回率也有类似的下降。补充表 20 提供了与 CNLearn 的精度性能比较。我们观察到 ECOLE 比 CNLearn 具有更好的精度。它提供了 49.3% 的平均精度提高,同时提供了如前所述的平均召回率显着提高。补充表 22 和补充图 17 显示了使用人类专家挑选的标签作为基本事实 30 时每种方法的精度表现。请参阅补充表 23 了解相应的混淆矩阵。
与下一个最佳方法 CONIFER 相比,我们获得了 14.3% 的平均精度提升。虽然 CONIFER 在 DUP 类别中实现了完美的精度,但它在 DEL 类别中的精度为零,并且只进行了少量调用。实际表现第二好且调用次数可接受的方法是经过改进的 CODEX2,它比 ECOLEFT-EXPERT 落后 30%。补充表 24 和补充图 18 显示了这些工具在各种平台上测序的 NA12878 样本上的表现。当考虑合并的 CNV 段时,ECOLE 能够在所有性能指标上保持领先地位。我们观察到,在所有考虑的测序平台中,我们的模型比表现第二好的方法至少提供了约 28% 的平均精度提升。
最后,我们研究了 ECOLE 在单外显子事件上的性能,这对于临床用例中的检测至关重要。我们发现 ECOLE 对单外显子事件的总体精度为 56.9%,总体召回率为 78.7%。合并 CNV 片段中缺失和重复调用的外显子数量分布请参见补充图 19 和 20。我们在补充图 21 和 22 中根据合并片段中的外显子数量对 ECOLE 的删除和重复性能进行了分层。我们发现 ECOLE 在单外显子事件上的缺失检测性能(~50% F1 分数)低于多外显子事件(~70% F1 分数)。
我们观察到随着调用中外显子数量的增加,ECOLE 的删除检测性能有所提高。另一方面,ECOLE 在单外显子事件上的重复检测性能与多外显子事件性能相当(~80% F1 分数)。我们得出结论,即使输出合并的 CNV 调用而不是外显子级调用,ECOLE 也能提高最先进的 CNV 调用精度。请注意,这对我们的方法来说是一个不利的基准设置,因为我们的方法以碱基对分辨率工作,而合并过程会降低我们调用的分辨率。
Interpretability of the CNV calls
基于 Transformer 的神经网络本质上是可解释的,因为它们包含注意力机制。网络的注意力组件会学习模型必须关注读取深度信号的哪些部分才能做出决策,类似于人类选择性地关注图像的某些部分以进行识别。然而,可视化 ECOLE 关注的读取深度信号部分并不是一件容易的事,因为该模型使用多头注意力机制,这意味着对信号计算多个注意力,然后将其连接并(线性)转换为与输入相同的维度(192 x 1001)。因此,这些注意力图之间存在隐式学习的复杂关系,模型会利用这些关系来做出最终决策。正如 Voita 等人所证明的那样,每个注意力头对最终分类的重要性不同,对多个注意力头进行简单平均会导致可视化相关性图的噪声。
我们使用 Chefer 等人提出的通用注意模型可解释性方法来可视化信号中被认为对进行 CNV 调用很重要的部分 33。图 4 显示了在 15 个外显子上观察到的读取深度信号。背景热图指示信号的哪些部分受到模型的关注,其中颜色越亮表示关注度越高。ECOLE 将第一行中的示例归类为 NO-CALL,第二行归类为重复,最后一行归类为删除。对于重复调用,模型关注的是读取深度信号的急剧变化(主要是升高)。同样,对于删除调用,我们可以观察到模型关注的是读取深度值急剧下降的位置。对于这两种情况,信号的其余部分几乎没有受到关注,被模型忽略。
对于没有调用的外显子,我们观察到模型仍然关注读取深度信号的上升和下降,但与有调用的外显子相比,信号的其他部分受到的关注相对较多。由于模型无法检测到具体的模式,并且信心不足,因此它选择不调用。这是 ECOLE 的一个不错的功能,因为用户(例如临床医生)可以直观地看到 ECOLE 在外显子上进行 CNV 调用背后的原因,并检查读取深度信号的变化是否可靠以进行调用。注意范围的开始和结束可能隐含地对应于断点,因为该方法了解到具有如此急剧变化的区域对于进行调用很重要,但情况不一定如此。这是因为模型还考虑了上下文,即在该染色体的其他外显子上进行读取深度以做出决定。
Insights from ECOLE’sCNVcalls
首先,我们重点关注 ECOLE 对 X 染色体的拟常染色体区域(PAR1 和 PAR2)的调用,这些区域是二倍体区域,通常对 CNV 调用者来说是个问题。我们将性能与 XHMM 进行比较。完善的 XHMM 调用集在这些区域的精度分别为 37% 和 50%。另一方面,ECOLE 分别实现了 73.6% 和 73.8% 的精度。在整个 X 染色体上,ECOLE 的外显子精度为 65%,而完善的 XHMM 的精度为 16%。我们发现该模型在对 X 染色体上的男性进行 DEL 调用时非常保守。它进行了 6 次 DEL 调用,精度达到 50%。虽然性能并不完美,但结果表明,由于读取深度信号较低,该模型不会对男性进行虚假删除调用,并会按预期学会纠正此问题。我们还分析了 ECOLE 在片段重复结果上的表现,以了解我们的模型在难以映射的区域中的表现。我们使用来自 UCSC 数据集 (https://genome.ucsc.edu/cgi-bin/ hgTables?clade=mammal&org=Human&db=hg38&hgta_group= allTracks&hgta_track=genomicSuperDups&hgta_regionType=genome) 的片段重复区域数据。ECOLE 对来自 1000 Genomes 数据集的 157 个测试样本的精度达到 87.1%。这些结果表明 ECOLE 在这种具有挑战性的环境中表现良好。
1,763 / 5,000
图 5 显示了按染色体分层的调用,其中每个点代表 ECOLE 对我们测试集(1000 个基因组 WES 数据)上每个样本的调用:如果调用相对于匹配的基于 WGS 的半真实调用正确,则为绿色,否则为灰色。我们观察到该方法对于非常短的外显子(小于 100 bps)的性能较低。这是预料之中的,因为这些区域中的读取深度信号长度较短并且更容易受到噪音的影响,因为该方法输入的信息较少。外显子的长度分布如补充图 23 所示,只有极少数外显子的长度小于 100bp,这使得模型更难推广。我们还观察到该方法的成功率因染色体而异。该方法在 14、21 和 Y 染色体上表现良好,准确率高达 80%。
另一方面,在 9、10 和 13 号染色体上的性能较低,准确率低于 10%。除 9 号染色体外,这些染色体的外显子较短,调用次数相对较少,这也许可以解释为什么模型难以学习调用的真实分布。最后,我们分析了读取深度变化对模型性能的影响。我们以不同的速率(80%、60% 和 40%)对 NA12892 样本(最初覆盖率为 200 倍)的读取进行子采样,并比较 ECOLEFT-GiaB 在此样本上随着覆盖率的降低而产生的性能。如补充图 24 所示,准确率和召回率趋于下降,有时在有一些噪音的情况下保持不变。即使在 80 倍覆盖率下,最低 F1 分数也接近 40%。我们认为结果表明该方法即使在覆盖率非常低的数据下也能表现得相当好,但我们建议更高的覆盖率以获得更好的性能。