2024.09.04【读书笔记】|如何使用GATK ASEReadCounter工具进行ASE(等位基因特异性表达)分析

  1. 准备数据

    • 获取基因组序列(FASTA格式)和对应的基因组注释文件(GTF或GFF格式)。
    • 获取样本的BAM文件,确保这些文件已经过排序和索引。
    • 获取变异信息文件(VCF格式),包含样本的基因型信息。如何获取snp的vcf文件请参考这篇文章:2021.07.30【WGS/GWAS】丨全基因组分析全流程(上)
  2. 安装GATK工具

    • 下载并安装GATK工具包。确保Java环境已配置好。
  3. 创建参考序列的索引

    • 使用GATK工具创建参考序列的索引文件。命令如下:
     gatk CreateSequenceDictionary -R reference.fasta
  1. 创建BAM文件的索引
    • 确保BAM文件已经排序创建索引。命令如下:
     samtools sort sample.bam -o sample_sorted.bam
     samtools index sample_sorted.bam

注意:早期samtools版本格式在排序步骤命令可能会发生报错,原因是-o的作用是作为输出文件的前缀而不是输出文件。可参考下列命令

     samtools sort sample.bam sample_sorted
  1. 运行ASEReadCounter
    • 使用GATK的ASEReadCounter工具进行ASE分析。命令如下:
     gatk ASEReadCounter -R reference.fasta -I sample_sorted.bam -V variants.vcf -O output.csv
  • 参数说明:
  • -R:参考基因组序列文件。
  • -I:排序并索引后的BAM文件。
  • -V:变异信息文件(VCF格式)。
  • -O:输出文件,包含ASE分析结果。
  1. 分析结果
    • 打开输出文件output.csv,查看每个位点的等位基因特异性读取计数。
    • 根据读取计数,计算等位基因的表达水平,进一步分析等位基因特异性表达情况。

在这里插入图片描述

通过以上步骤,可以使用GATK ASEReadCounter工具进行ASE分析,详细分析每个位点的等位基因特异性表达情况。

🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对数据科学的兴趣,我诚挚地邀请您:

👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。
🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。
📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。
📚 我承诺,将持续为您带来深度与广度兼具的数据科学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。
💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。
🌐 点击下方的微信名片,获取本书资料,加入交流群,与志同道合的朋友们一起探讨、学习和成长。

GATK4(Genome Analysis Toolkit version 4)并不是GATK(Genome Analysis Toolkit version 3)的简单升级,而是完全重构的一个新一代工具集。它采用了更现代的架构和设计理念,提供了一套更高效、模块化和用户友好的接口。 对于SNP(Single Nucleotide Polymorphism)过滤,GATK4通常使用`VariantFiltration`工具进行。在GATK4中,你需要首先对变异数据(如VCF文件)进行初步质量控制(QC),这包括检查诸如低覆盖区域、错误率等指标。以下是基本步骤: 1. **加载数据**:使用`SelectVariants`选择感兴趣的样本和/或特定位置的数据。 ``` SelectVariants -R reference.fasta -V input.vcf.gz -L target_regions.bed -O qc_input.vcf ``` 2. **运行预过滤**:应用一些内置的过滤规则,比如最低质量分数(QScore)、覆盖度等。 ``` VariantFiltration -R reference.fasta -V qc_input.vcf -filterName "LowQD" --filterExpression "QD < 2.0" --filterLevel "PASS" -O initial_filter.vcf ``` 3. **自定义过滤**:如果需要,可以编写自定义过滤条件,并添加到`VariantAnnotator`或创建新的过滤规则。 ``` AnnotateVariants -R reference.fasta -V initial_filter.vcf --alwaysAppendAnnotation --annotation QD,FS ... -O annotated.vcf VariantFiltration -R reference.fasta -V annotated.vcf ... --filterExpression "FS > 60.0" -O final_filtered.vcf ``` 4. **检查结果**:最后查看最终的filtered.vcf文件,确认SNPs是否满足你的过滤标准。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值