接上文:fastp与fastqc和multiqc代码
fastp -A -L -Q -f 12 -F 12 -5 -i NC-1.R1_val_1.fq.gz -I NC-1.R2_val_2.fq.gz -o NC-1.R1_val_1_fastp.fq.gz -O NC-1.R2_val_2_fastp.fq.gz
1~6,-D默认是3
fastqc *fq.gz -o qc/ -t 10
multiqc qc/ -o multiqc -n zz
#安装hisat2软件
1、进入minhe环境,cd命令进入 ~./miniconda3/pkgs(我的这个项目数据清洗所需软件的默认环境和安装位置,安装位置可以理解为软件的工作路径)
conda activate minhe
cd ~./miniconda3/pkgs
2、安装(小tips,conda安装软件且管理软件有天然优势,优先选用;若没有conda或conda装不上找不到,才用源代码安装)
conda install -y hisat2=2.2.0 #conda安装快
wget https://cloud.biohpc.swmed.edu/index.php/s/fE9QCsX3NH4QwBi/download #源码安装(很慢)
wget https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download #预编译安装
#源码在哪里找? 进入hisat2官网https://daehwankimlab.github.io/hisat2/download/,复制source链接就是源码; 预编译安装在哪里找?同上,不是source,而是linux_x84_64的链接
3、解压
unzip hisat2-2.2.0-source.zip
unzip hisat2-2.2.0-source.zip -p 路径 #-p解压到指定位置,没有的话就是当前所在路径
4、切换cd进入hisat2-2.2.0
cd hisat2-2.2.0 #切换路径
make #编译
hisat2 --version #查看版本,判断是否安装成功
比对基础知识RNAseq(4)--Hisat2进行序列比对及Samtools格式转化 - 简书 (jianshu.com)
转录组(RNA-Seq)比对方案:ungapped alignment to transcriptome
基因组(
DNA-Seq)比对方案:Gapped aligenment to genome
比对软件: hisat2(快些,失真)和
STAR
比对目的:
1、找差异表达基因,只需要确定不同的read计数,用bowtie, bwa,salmon(这类align-free工具)更快。
2、寻找新的可变剪切isoform,RNA的可变剪切,需要看外显子差异,用TopHat, HISAT2或STAR找剪切位点。原理是?DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。
比对要用到index:参考基因组序列,经过BWT算法转换成index(网站下载