使用FastQTL进行cis-eQTL分析

FastQTL是一款高效 cis-eQTL 分析工具,广泛应用于GTEx项目。它以速度著称,通过beta分布进行置换检验,支持离散和连续协变量,提供简单易用的接口,并支持多线程。分析需准备Genotypes(VCF文件)、Phenotypes(基因表达量信息bed文件)和Covariates(协变量信息)。准备好这些文件后,使用FastQTL进行分析,输出包括基因ID、SNP ID、距离及pvalue等信息。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

FastQTL是一款专门用于cis-eQTL分析的软件,在GTEx项目中就是采用该软件进行cis-eQTL的分析,对应的文章发表在Bioinformatics杂志上,链接如下

https://academic.oup.com/bioinformatics/article/32/10/1479/1742545

源代码保存在sourceforge上,网址如下

http://fastqtl.sourceforge.net/

该软件具有以下几个特点

  1. 运行速度快,通过beta分布来进行置换检验,只需要100到1000次的置换检验就可以达到显著性水平;

  2. 支持离散性和连续性的协变量,同时也可以对基因表达量进行归一化

  3. 用法简单,只需要输入标准的文件格式,就可以方便的运行

  4. 支持多线程,可以充分利用计算机资源


官网提供了可以执行的二进制文件,直接下载即可

在运行前需要准备好以下3种文件

1. Genotypes

SNP分型结果对应的文件格式为VCF, 内容示意如下

在INFO中,包含了GT和DS两个字段的信息,GT表示基因分型的结果,0表示ref allele, 1表示alt allele; DS表示基因剂量。官方推荐使用DS这个字段的信息。

对于VCF文件,需要压缩之后,用tabix软件建立索引,命令如下

bgzip genotypes.vcf && tabix -p vcf genotypes.vcf.gz
2. Phenotypes

表型就是基因的表达量信息,内容示意如下

前4列记录了基因的染色体位置,后面的列是每个样本中的表达量信息,该文件是一个bed格式的文件,同样的也需要压缩并建立索引,命令如下

bgzip phenotypes.bed && tabix -p bed phenotypes.bed.gz
3. Covariates

协变量可以是离散型,也可以是连续性,内容示意如下

每一行表示一个协变量,上述文件表示的是一个群体分层的协变量。
准备好这3个文件之后,就可以进行分析了,基本用法如下

fastQTL --vcf genotypes.vcf.gz \
  --bed phenotypes.bed.gz \
  --region 22:17000000-18000000 \
  --out nominals.default.txt.gz

输出结果的内容示意如下

第一列为基因ID, 第二列为snp ID, 第三列为基因和SNP之间的距离, 软件默认分析距离1M以内的SNP-Gene对, 第四列为pvalue值。更多用法请参考官方的说明文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  GWAS meta分析

  基因型填充

  CNV分析

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值