【数据比对hisat2和samtools】零基础看懂运行代码、报错Q&A—结尾有彩蛋

本文详细介绍了如何在Linux环境下安装和使用hisat2进行RNAseq序列比对,以及如何利用samtools将比对结果转化为bam文件并进行排序。在遇到比对率低的问题时,作者提供了排查方法。此外,还讲解了如何通过IGV查看比对结果,以及使用featureCounts进行注释和计数,强调了基因组和注释文件来源的一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接上文:fastp与fastqc和multiqc代码

fastp -A -L -Q -f 12 -F 12 -5 -i NC-1.R1_val_1.fq.gz -I NC-1.R2_val_2.fq.gz -o NC-1.R1_val_1_fastp.fq.gz -O NC-1.R2_val_2_fastp.fq.gz 
1~6,-D默认是3
fastqc *fq.gz -o qc/ -t 10
multiqc qc/ -o multiqc -n zz

#安装hisat2软件

1、进入minhe环境,cd命令进入 ~./miniconda3/pkgs(我的这个项目数据清洗所需软件的默认环境和安装位置,安装位置可以理解为软件的工作路径)

conda activate minhe
cd ~./miniconda3/pkgs

2、安装(小tips,conda安装软件且管理软件有天然优势,优先选用;若没有conda或conda装不上找不到,才用源代码安装)

conda install -y hisat2=2.2.0   #conda安装快
wget https://cloud.biohpc.swmed.edu/index.php/s/fE9QCsX3NH4QwBi/download  #源码安装(很慢)
wget https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download  #预编译安装

#源码在哪里找? 进入hisat2官网https://daehwankimlab.github.io/hisat2/download/,复制source链接就是源码; 预编译安装在哪里找?同上,不是source,而是linux_x84_64的链接

3、解压


unzip hisat2-2.2.0-source.zip 
unzip hisat2-2.2.0-source.zip -p 路径   #-p解压到指定位置,没有的话就是当前所在路径

4、切换cd进入hisat2-2.2.0

cd hisat2-2.2.0   #切换路径
make    #编译
hisat2 --version   #查看版本,判断是否安装成功

比对基础知识RNAseq(4)--Hisat2进行序列比对及Samtools格式转化 - 简书 (jianshu.com)

转录组(RNA-Seq)比对方案:ungapped alignment to transcriptome

基因组(DNA-Seq)比对方案:Gapped aligenment to genome

比对软件: hisat2(快些,失真)和STAR

比对目的:

1、找差异表达基因,只需要确定不同的read计数,用bowtie, bwa,salmon(这类align-free工具)更快。

2、寻找新的可变剪切isoform,RNA的可变剪切,需要看外显子差异,用TopHat, HISAT2或STAR找剪切位点。原理是?DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。

比对要用到index:参考基因组序列,经过BWT算法转换成index(网站下载

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值