Hisat2安装及比对

Hisat2和STAR是目前转录组分析过程中用来做比对的两款主要工具,记得有一篇好像是2017年的文章专门比较了几款转录组比对工具对结果的影响,结论中认为两款软件在实际使用过程中对结果影响及耗时区别不大,我认为选一款就可以,之前总是用STAR,今天试一下Hisat2。

一、官网下载软件及安装

https://daehwankimlab.github.io/hisat2/

在Download页面,可以看到Hisat2非常友好地提供了二进制的程序及Index(比对时的索引文件),省去了后续的一些小麻烦。

下载完后unzip进行解压,一开始报错:

图片

原来依赖的libstdc++.so.6需要高版本的库,我没有root权限,更新的话会很麻烦,果断降版本,下载的hisat2-2.1.0后,解压,尝试了一下,安装成功:

图片

二、构建索引****Index

Hisat2和STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。

区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的时候就可以考虑SNP的情况,需要通过下面命令将SNP文件转换成hisat2-build能使用的文件:

extract_snps.py snp142Common.txt >genome.snp

因为我研究的物种还没有集合SNP信息的文件,我只能建立涵盖基因组+转录组的索引:

Hisat2提供两个Python脚本将GTF文件转换成hisat2-build能使用的文件,依次运行下面三个命令:

extract_exons.py *.gtf > genome.exon

extract_splice_sites.py *.gtf > genome.ss

hisat2-build genome.fa -p 10 --ss genome.ss–exon genome.exon /path/to/genome_snp_tran

最终生成的8个*.ht是我们比对时需要的索引文件:

图片

三、Hisat2比对:

图片

-x  指定索引文件所在路径及前缀

-p  线程数

hisat2输出文件为sam格式,sam文件格式比较大,通常会直接通过“|”传输给samtools转为bam文件,并对bam文件进行sort排序,以便后面处理(此步骤通过生信技能树-健明老师帖子进行改进,在此致谢)。

四、结果

结果会生成bam文件,为二进制格式,无法直接查看,可以导入IGV进行可视化,一般后面结果没有异常时,我不会去用IGV去看看比对结果去。而比对过程中的日志结果需要我们记录一下:

图片

我的总体比对率是73.19%,是比较低的,人的话得90%以上才认为是比较好,我的是非模式生物,目前也只能先接受这个结果了,后面得想办法再优化。

参考

Kim, D., Paggi,J.M., Park, C. et al. Graph-based genome alignment andgenotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37,907–915 (2019). https://doi.org/10.1038/s41587-019-0201-4

http://www.360doc.com/content/21/0714/12/76149697_986501798.shtml

图片

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
HISAT2 是一款广泛使用的 RNA-seq 数据比对软件,可以将 RNA-seq 数据比对到参考基因组上。为了生成正确的 HISAT2 比对代码,您需要考虑以下几个方面: 1. 参考基因组文件:首先需要准备好参考基因组文件,可以是 FASTA 格式的基因组序列文件,也可以是 HISAT2 索引文件。如果没有可用的参考基因组文件,可以从 NCBI 等公共数据库下载。 2. RNA-seq 数据:需要准备好 RNA-seq 数据文件,可以是单端或双端测序数据,可以是 FASTQ 格式的数据文件,也可以是 SAM 或 BAM 格式的对齐结果文件。 3. HISAT2 命令行参数:在运行 HISAT2 时,需要指定一些命令行参数,以控制比对过程中的各个步骤。例如,可以使用 "-x" 参数来指定参考基因组索引文件,使用 "-U" 参数来指定单端或双端测序数据文件,使用 "-S" 参数来指定输出的 SAM 文件名,还可以使用其他参数来控制比对的参数和输出格式等。 4. 常用参数设置:在实际使用过程中,需要根据具体的数据和分析任务,设置一些常用的参数。例如,可以设置 "-q" 参数来指定 FASTQ 格式的输入数据,使用 "-p" 参数来指定线程数,使用 "--no-spliced-alignment" 参数来禁用剪接比对等。 下面是一个简单的 HISAT2 比对示例: ``` hisat2 -x ref_genome -U reads.fastq -S output.sam -p 4 ``` 该命令将使用参考基因组索引文件 "ref_genome",对单端测序数据文件 "reads.fastq" 进行比对,输出结果到 SAM 文件 "output.sam" 中,并使用 4 个线程来加速比对过程。 希望这些信息能够帮助您生成正确的 HISAT2 比对代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值