构建参考基因组
我们在这里使用的是hisat2作为构建参考基因组和对比的工具的
软件下载
直接使用conda下载hisat2
conda install hisat2
参考基因组的构建
hisat2-build xxx.dna.primary_assembly.fa /data/genome 1>hisat2-build.log 2>&1
其中:
xxx.dna.primary_assembly.fa 是指我们的基因组序列
/data/genome 是指我们生成的参考基因组放置的位置和前缀
1>hisat2-build.log 2>&1 是指生成的日志文件和报错文件存入hisat2-build.log里面
比对到参考基因组
对比到参考基因组我们有两种情况,单末端测序和双末端测序
我们分别来看一下,单末端文件和双末端文件应该怎么处理
单末端测序文件
hisat2 --new-summary -p 2 -x ../data/genome -U xxx.fq.gz -S xxx.sam --rna-strandness R 1>xxx.log 2>&1
其中
-p 是指线程数,可以根据具体条件自己调节
-x 是指我们之前构建的参考基因组的位置和前缀
-U 是指在单末端测序中产生的测序文件,可以使用gz压缩的fasta文件也可以使用解压后的fasta文件
-S 是指输出文件的名字和格式,一般使用sam格式
–rna-strandness 是指链特异性测序,在单末端测序中使用 R 参数
双末端测序文件
hisat2 --new-summary -p 2 -x ../ref/genome -1 xxx.fq.gz_1 -2 xxx.fq.gz_2 -S xxx.sam --rna-strandness RF 1>xxx.log 2>&1
其中
-p 是指线程数,可以根据具体条件自己调节
-x 是指我们之前构建的参考基因组的位置和前缀
-1 是指样本的R1文件
-2 是指样本的R2文件
-S 是指输出文件的名字和格式,一般使用sam格式
–rna-strandness 是指链特异性测序,在单末端测序中使用 RF 参数
我们可以发现,单末端和双末端测序的区别就在于指定输入的测序文件不同,和链特异性测序的参数不同,其他地方完全一样。
压缩并排序
我们要将sam文件转换成bam文件,降低文件大小,对系统和后面的分析来说,都会轻松一些
在这里,我们使用的是samtools。老样子,还是使用conda安装
conda insatll samtools
然后我们就可以直接使用samtool了
samtools sort -o xxx.bam xxx.sam &
直接用samtools sort 就可以把sam文件转换为bam文件并排序,对了在后面加 & 是为了能够并行
生成bam index
生成bam index是为了我们在IGV上面可以可视化我们的对比结果
同样的,我们还是使用samtools
samtools index AN12_11.bam &
好了,到此为止,对比就结束了