TWAS——Transcriptome-wide Association Study

TWAS(Transcriptome-wide Association Study)是一种用于研究基因表达和疾病之间关系的方法。它通过对全基因组的基因表达数据进行统计分析,以识别与特定疾病或表型相关的基因表达变异。这种方法可以帮助科学家们理解疾病的遗传基础,并发现潜在的治疗靶点。

而FUSION是一种用于检测基因融合的方法,它可以检测基因序列之间的重叠或融合事件。FUSION方法通常用于癌症研究,因为它可以帮助科学家们理解癌症的发展和进展,并发现新的治疗策略。FUSION是一套用于进行全转录组和全调控组关联研究(TWAS和RWAS)的工具。FUSION建立功能/分子表型遗传成分的预测模型,并使用GWAS汇总统计数据预测和测试该成分与疾病的相关性。目的是确定GWAS表型和仅在参考数据中测量的功能表型之间的关联。我们提供了来自多项研究的预先计算的预测模型,以促进这一分析。

基于功能总结的imputation方法可能是一种将基因表达和基因融合数据结合起来的方法,通过综合分析这两种数据类型,以更全面地理解疾病的遗传机制。这种方法可以帮助科学家们更好地理解疾病的病因和进展,并发现新的治疗策略。

总的来说,TWAS / FUSION和基于功能总结的imputation方法都是用于研究基因表达和疾病之间关系的方法,它们可以帮助科学家们更好地理解疾病的遗传机制,并发现新的治疗策略。

 安装
从github下载并解压FUSION软件包:
wgethttps://github.com/gusevlab/fusion_twas/archive/master.zipzip master.zip cd fusion_twas-master
下载并解压(1000个基因组)LD参考数据:
wgethttps://data.broadinstitute.org/alkesgroup/FUSION/LDREF.tar.bz2tar xjvf LDREF.tar.bz2
下载并打开plink2R库(Gad Abraham著):
wgethttps://github.com/gabraham/plink2R/archive/master.zip解压缩master.zip
启动R并安装所需的库:
install.packages(c('ptparse','RColorBrewer'))

install.package('link2R-master/plink2R/',repos=NULL)

 

 如果计算自己的加权,则需要以下额外步骤
将捆绑的GCTA二进制GCTA_nr_robust添加到路径(由Po-Ru-Loh编码用于鲁棒非线性优化)
下载并安装PLINK2,将plink添加到路径
启动R并安装以下所需的库:
install.packages(c('lmnet','methods'))
如果使用BSLMM,请下载并安装GEMMA软件,添加到路径。通过调用ln-s生成到输出的符号链接。/在将运行FUSION.weights.R的目录中输出(这是一种解决方法,因为GEMMA要求结果进入输出子目录)。

 

 典型分析和输出
典型的TWAS分析采用预先计算的基因表达权重(如下)以及疾病GWAS汇总统计数据来估计每个基因与疾病的相关性。例如,我们将使用PGC精神分裂症汇总统计数据对GTEx全血数据进行TWAS。该示例假设您已经如上所述设置了FUSION和LD参考数据,并且位于带有LDREF子目录的FUSION目录中。
首先,下载并准备GWAS和GTEx全血数据:
wgethttps://data.broadinstitute.org/alkesgroup/FUSION/SUM/PGC2.SCZ.sumstats
mkdir重量cd重量wgethttps://data.broadinstitute.org/alkesgroup/FUSION/WGT/GTEx.Whole_Blood.tar.bz2tar xjf GTEx。全血.tar.bz2
WEIGHTS目录应包含表达式权重的子目录(可以在R中检查),以及描述数据的几个报告文件(有关详细信息,请参见下文)。以下各节详细介绍了输入。

 输入:GWAS汇总统计
主要输入是LD评分格式的全基因组汇总统计数据。至少,这是一个平面文件,其标题行包含以下字段:
SNP–SNP标识符(rsID)
A1–第一等位基因(效应等位基因)
A2–第二等位基因(其他等位基因)
Z–Z分数,相对于A1签名。
以及用于每个SNP的后续数据行(所有空白区分开)。其他列是允许的,将被忽略。我们建议使用LDSC munge_stats.py实用程序将GWAS摘要数据转换为这种格式,它可以检测并报告许多常见的陷阱。
重要提示:该方法依赖于具有密集的汇总级数据,而没有显著性阈值(现在通常与GWAS出版物一起发布)。我们不建议对经过修剪、阈值处理或仅限于顶级SNPs的数据进行开箱即用的测试(考虑进行单标记测试)。我们建议将GWAS SNPs与LDREF/*.bim文件中的SNPs尽可能紧密地匹配,因为只有这些SNPs将用于预测。

 输入:表达式权重
使用加载功能参考数据/重量/GTEx。指向个人的WholeBlood.pos。RDat重量文件、其基因标识符、物理位置(以及面板/研究名称的可选面板列)。我们已经为所有参考数据预先计算了*.pos文件,可在下面下载。将仅评估文件中的权重。物理位置应与特征(例如TSS和TES)相对应,并将用于最终输出和绘图。

 

 执行表达式插补
最后,我们使用22号染色体上的数据运行FUSION.test.R:
Rscript融合.assoc_test.R\
--sumstats PGC2.SCZ.sumstats\
--重量/重量/GTEx。全血.pos\
--weights_dir/重量/\
--ref_ld_chr/LDREF/1000G。EUR\
--chr 22\
--出PGC2.SCZ.22.dat
这应该需要不到一分钟的时间,你会看到体重名称和身体位置打印到屏幕上。如果一切正常,这将生成具有73行的文件PGC2.SCZ.22.dat,其中一行是头。我们将在下一节中详细研究此文件。
在幕后,分析步骤是:(1)统一GWAS和参考SNPs,并酌情去除/翻转等位基因;(2) 使用IMPG算法估算缺失的任何参考SNP的GWAS Z分数;(3) 估计函数GWAS关联统计;(4) 报告所有测试功能的结果。

 

 输出:基因疾病关联
让我们通过调用cat PGC2.SCZ.22.dat |awk'NR==1||$NF<0.05/2058'来查看PGC2.SCZ.22.dat(针对GTEx全血参考中的2058个基因进行了调整)中转录组范围内的显著关联。前两行如下所示,只是我将其转置以解释每个条目:

 

ColumnValue
1FILEFull path to the reference weight file used
2IDFAM109BFeature/gene identifier, taken from --weights file
3CHR22Chromosome
4P042470255Gene start (from --weights)
5P142475445Gene end (from --weights)
6HSQ0.0447Heritability of the gene
7BEST.GWAS.IDrs1023500rsID of the most significant GWAS SNP in locus
8BEST.GWAS.Z-5.94Z-score of the most significant GWAS SNP in locus
9EQTL.IDrs5758566rsID of the best eQTL in the locus
10EQTL.R20.058680cross-validation R2 of the best eQTL in the locus
11EQTL.Z-5.16Z-score of the best eQTL in the locus
12EQTL.GWAS.Z-5.0835GWAS Z-score for this eQTL
13NSNP327Number of SNPs in the locus
14MODELlassoBest performing model
15MODELCV.R20.058870cross-validation R2 of the best performing model
16MODELCV.PV3.94e-06cross-validation P-value of the best performing model
17TWAS.Z5.1100TWAS Z-score (our primary statistic of interest)
18TWAS.P3.22e-07TWAS P-value

 解释输出:这一结果表明,该基因表现最好的预测模型是LASSO,其略优于最佳eQTL(注意,即使eQTL具有更高的准确性,也总是使用非eQTL模型来计算TWAS统计数据)。该基因的过度表达与SCZ风险呈正相关,这与对表达和GWAS具有负面影响的最佳eQTL SNP一致。TWAS Z评分并不比最高的GWAS SNP更显著,这促使条件分析来评估基因座是否包含独立于表达的信号(见下文)。

 

 下载预先计算的预测模型
下表列出了预计算表达式引用权重的下载。表达式权重通常根据BLUP、BSLMM、LASSO、Elastic Net和顶部SNPs计算,但由于样本量或收敛问题而排除BLUP/BSLMM的情况除外。每个包都包含一个相应的*.profile文件,列出每个基因的性能统计信息,以及一个总结所有基因的性能和遗传力的*.err文件。

 

TissueAssay# Samples# FeaturesStudy
Peripheral BloodRNA array1,2472,454[1] NTR
Whole bloodRNA array1,2644,701[2] YFS
AdiposeRNA-seq  5634,671[3] METSIM
Brain (DLPFC)RNA-seq  4525,420[4] CMC
Brain (DLPFC)RNA-seq splicing  4527,772[4] CMC

 

 GTEx v8多组织表达
每个档案包含两组pos文件,一组用于具有显著遗传力的基因,另一组用于所有基因(标记为no_filter)。建议使用具有显著遗传力的基因进行典型分析。使用“所有样本”中的权重通常也会增加灵敏度,除非分析高度特定于欧洲的地区。此处提供了按人口和GTEx版本划分的模型的详细比较。pos文件中的位置取自GTEx注释。
Junghyun Jung在MancusoLab估计并提供了重量。

 

 

 

 

 

 

  • 29
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值