Ziqian Xie, Tao Zhang, Sangbae Kim, Jiaxiong Lu, Wanheng Zhang, Cheng-Hui Lin, Man-Ru Wu, Alexander Davis, Roomasa Channa, Luca Giancardo, Han Chen, Sui Wang, Rui Chen,and Degui Zhi. iGWAS: image-based genome-wide association of self-supervised deep pheno-typing of human medical images. medRxiv, 2022. doi: 10.1101/2022.05.26.22275626. URL https://doi.org/10.1101/2022.05.26.22275626.
一. 摘要:(目的、方法、结果、优势)
iGWAS用于识别,通过对比学习从医学影像中发现的表型相关的遗传因素。使用视网膜眼底照片,提取代表其特征的128维向量作为表型,用EyePACS数据集中的4万张图像训练模型,从UKB中的65629名英国白人参与者的130967张图像中生成表型的表示特征,GWAS鉴定出34个相关基因座。WNT7B是新发现的,功能验证表明与视网膜血管发育有关。
这种基于医学图像自监督表型分析,对 传统的 用人类专家定义的成像表型来说 是一种改进。
二. 背景(已有解决方案及存在的问题、提出的新解决方案及可行之处)
1. 预定义表型 编码了有价值的生物知识,但其粒度有限,不足以全面捕获生理病理的复杂性,推导新的表型表示 将有可能发现新的遗传关联。
2. 现有成像GWAS使用的是成像衍生表型(IDP),DL被用来自动生成IDP,通过学习专家标记的数据进行训练,在GWAS中识别出新的位点,但无法提供超出专家定义的表型,无法全面获得成像内容。(人眼从图像中提取的信息量有限,图像中的生理信息特征可能被忽视:年龄、吸烟状况),需要新的方法来提取这些 被编码在成像数据中,但 超出人类识别范围的附加信息。
3. iGWAS不依赖专家注释标签的监督学习,而是将无监督深度学习应用于图像捕获信息,将信息即表型进行GWAS识别相关基因组位点。
人类眼底图像 --> 视网膜脉管系统结构-用Inception V3架构构建对比损失函数-用图像生成的血管分割掩模作为输入,神经网络模型,输出代表视网膜血管系统的128维表型向量。用EyePACS的4万张图像进行训练,生成UKB中65629英国白人参与者的130967张图像中生成表型,进行GWAS后鉴定出34个独立基因座,验证了WNT7B基因在视网膜血管发育中的作用。
三. 关键结果(图)
1. iGWAS框架
内表型(endophenotypes)即中间表型。
iGWAS核心 是表型分析神经网络(编码器),生成内表型,然后用GWAS关联内表型和基因型。
iGWAS的编码器通过自监督学习进行训练,以发现新的表型,即自监督表型(SSuPer),自监督学习损失有 对比损失和重建损失,由此产生的‘嵌入向量’(编码器的输出)被视为下游GWAS分析的‘内表型’。
iGWAS:① 模型开发:使用‘phenotype development set’训练嵌入网络,它来自个体的图像集合,不需要基因型数据,训练神经网络模型SSuPer,将输入图像转换为一组自监督图像衍生表型(SS-IDP);② GWAS阶段:‘GWAS集’包含不同个体图像和基因型的数据集,测试SS-IDP与基因型的GWAS关联。
2. 嵌入网络
选择具有经典 U-net 架构的基于块的血管分割网络。
利用ArcFace中描述的自监督学习方法,Inception V3被证明能捕获眼底图像中的复杂信息,用作自监督学习的骨干架构,嵌入网络的输出被设计为128维向量,ArcFace损失函数是一种对比损失,将嵌入向量投影到单位球体,然后通过最小化同一个人左右视网膜嵌入之间的角距离,并保持来自不同个体的嵌入至少有一些边际,来对同一个人眼睛的嵌入与不同人眼睛的嵌入的对比进行优化。若模型能捕获真实的特征,则个体左右眼图像之间的嵌入应该比不同个体的嵌入更相似。
-对比损失旨在将同一个人的图像映射得更近,同时保持不同人的图像分开。
-匹配对matched(来自同一个人的图像)和随机对random的分布是分开的。Jensen-Shannon distances、Jaccard indices
分割和嵌入模型是可转移的,并捕获了眼底图像的内在特征,可以使用EyePACS训练的脉管系统嵌入网络应用于UKBB,无需微调。
3. UKBB数据
尽管血管分割结果没有明确包含眼底颜色信息,但内表型显示与眼底颜色(RGB)显着相关。即血管分割的质量可能受到整体视网膜颜色的影响。
4. 内表型的GWAS
使用BOLT-LMM实现的线性混合模型,对所有 UKBB获得的130,967 个图像的 128 个维度中的每个维度进行了 GWAS,并根据年龄、性别和祖先主成分 (PC) 进行了调整。
从164个SNP中识别了4011个关联信号(5e-8),合并为34个独立位点loci,将RGB作为协变量进行敏感性分析,经过Bonferroni校正,剩余24个位点。(p<0.05/34),这些SNP以及根据距离注释的候选基因,在视网膜血管发育中发挥重要作用。但这些位点在过往的GWAS研究中,未被发现与视网膜脉管系统表型相关。
5. 内表型的遗传相关性
使用汇总统计数据进行遗传相关性分析,纳入在iGWAS位点附近(200kb)有GWAS命中的性状,以及已知与视网膜或角膜疾病相关的性状。发现一些内表型与原发性高血压、视网膜血管闭塞以及巩膜、角膜、虹膜和睫状体疾病等疾病具有高度的遗传相关性(|r| > 0.5)(上图b)
6. 视网膜血管发育候选基因的功能验证
WNT7B是否在视网膜血管发育中发挥作用。shRNA敲低,中间血管丛中的总血管面积显着增加,而深部血管丛中的总血管面积减少
四. 关键方法
1.嵌入神经网络
损失函数定义为:
N样本数,j即第j个样本的网络输出与i样本模板之间的角度,m,s是超参数
模板嵌入即样本在特征空间中的标识,
对于同一样本,不同照片所对应的特征向量应该在特征空间中尽量靠近,使得它们在特征空间上具有相似的方向。
对于不同样本j≠i,其特征表示之间应该保持一定距离(margin)
采用这个方法,网络会学习到一个映射,将图像中的样本映射到特征空间中的嵌入向量。在这个特征空间中,同一样本的不同照片会被映射到接近的位置,而不同样本的照片则会被映射到较远的位置。
五. 生物学意义/应用
自监督学习衍生表型的好处是不需要外部训练标签(减轻了复杂且昂贵的标签负担)。iGWAS可以作为一种通用的表型发现方法。
六. 最大改进
之前有基于DL的成像GWAS研究,但他们要么是使用专家定义的表型,要么使用密集表征向量聚类为亚型,或用NN的最终层或中间层作为表型(使用外部标签以监督方式训练),而iGWAS直接使用密集向量作为表型,包含了亚型标签更多的信息。
左右眼对ArcFace来说是自然的‘生物复制物’,iGWAS也可以扩展到没有复制的图像,如同一样本不同视图的对比学习(同一样本的不同图像 - 不同时间、角度、光照条件),将同一样本的不同视图之间的相似性与不同样本的视图之间的差异性进行对比学习,鼓励模型将相似的视图映射到在特征空间中的相近位置,而将不同的视图映射到相距较远的位置。
七. 思考
应用于图像GWAS,用自监督NN获得图像的多维向量表示作为其表型,分析每个维度与基因型的关联,该自监督方式不需要专家定义表型,因此最大限度的保留了潜在的可能有信息价值的图像信息。