欢迎关注”生信修炼手册”!
FastQTL是一款专门用于cis-eQTL分析的软件,在GTEx项目中就是采用该软件进行cis-eQTL的分析,对应的文章发表在Bioinformatics杂志上,链接如下
https://academic.oup.com/bioinformatics/article/32/10/1479/1742545
源代码保存在sourceforge上,网址如下
http://fastqtl.sourceforge.net/
该软件具有以下几个特点
运行速度快,通过beta分布来进行置换检验,只需要100到1000次的置换检验就可以达到显著性水平;
支持离散性和连续性的协变量,同时也可以对基因表达量进行归一化
用法简单,只需要输入标准的文件格式,就可以方便的运行
支持多线程,可以充分利用计算机资源
官网提供了可以执行的二进制文件,直接下载即可
在运行前需要准备好以下3种文件
1. Genotypes
SNP分型结果对应的文件格式为VCF, 内容示意如下
在INFO中,包含了GT和DS两个字段的信息,GT表示基因分型的结果,0表示ref allele, 1表示alt allele; DS表示基因剂量。官方推荐使用DS这个字段的信息。
对于VCF文件,需要压缩之后,用tabix软件建立索引,命令如下
bgzip genotypes.vcf && tabix -p vcf genotypes.vcf.gz
2. Phenotypes
表型就是基因的表达量信息,内容示意如下
前4列记录了基因的染色体位置,后面的列是每个样本中的表达量信息,该文件是一个bed格式的文件,同样的也需要压缩并建立索引,命令如下
bgzip phenotypes.bed && tabix -p bed phenotypes.bed.gz
3. Covariates
协变量可以是离散型,也可以是连续性,内容示意如下
每一行表示一个协变量,上述文件表示的是一个群体分层的协变量。
准备好这3个文件之后,就可以进行分析了,基本用法如下
fastQTL --vcf genotypes.vcf.gz \
--bed phenotypes.bed.gz \
--region 22:17000000-18000000 \
--out nominals.default.txt.gz
输出结果的内容示意如下
第一列为基因ID, 第二列为snp ID, 第三列为基因和SNP之间的距离, 软件默认分析距离1M以内的SNP-Gene对, 第四列为pvalue值。更多用法请参考官方的说明文档。
·end·
—如果喜欢,快分享给你的朋友们吧—
往期精彩
GWAS meta分析
基因型填充
CNV分析