转录组分析第一步——比对

构建参考基因组

我们在这里使用的是hisat2作为构建参考基因组和对比的工具的

软件下载

直接使用conda下载hisat2

conda install hisat2

参考基因组的构建

hisat2-build xxx.dna.primary_assembly.fa /data/genome 1>hisat2-build.log 2>&1

其中:
xxx.dna.primary_assembly.fa 是指我们的基因组序列
/data/genome 是指我们生成的参考基因组放置的位置和前缀
1>hisat2-build.log 2>&1 是指生成的日志文件和报错文件存入hisat2-build.log里面

比对到参考基因组

对比到参考基因组我们有两种情况,单末端测序和双末端测序
我们分别来看一下,单末端文件和双末端文件应该怎么处理

单末端测序文件

hisat2 --new-summary -p 2 -x ../data/genome -U xxx.fq.gz -S xxx.sam --rna-strandness R 1>xxx.log 2>&1

其中
-p 是指线程数,可以根据具体条件自己调节
-x 是指我们之前构建的参考基因组的位置和前缀
-U 是指在单末端测序中产生的测序文件,可以使用gz压缩的fasta文件也可以使用解压后的fasta文件
-S 是指输出文件的名字和格式,一般使用sam格式
–rna-strandness 是指链特异性测序,在单末端测序中使用 R 参数

双末端测序文件

hisat2 --new-summary -p 2 -x ../ref/genome -1 xxx.fq.gz_1 -2 xxx.fq.gz_2 -S xxx.sam --rna-strandness RF 1>xxx.log 2>&1

其中
-p 是指线程数,可以根据具体条件自己调节
-x 是指我们之前构建的参考基因组的位置和前缀
-1 是指样本的R1文件
-2 是指样本的R2文件
-S 是指输出文件的名字和格式,一般使用sam格式
–rna-strandness 是指链特异性测序,在单末端测序中使用 RF 参数

我们可以发现,单末端和双末端测序的区别就在于指定输入的测序文件不同,和链特异性测序的参数不同,其他地方完全一样。

压缩并排序

我们要将sam文件转换成bam文件,降低文件大小,对系统和后面的分析来说,都会轻松一些
在这里,我们使用的是samtools。老样子,还是使用conda安装

conda insatll samtools

然后我们就可以直接使用samtool了

samtools sort -o xxx.bam xxx.sam &

直接用samtools sort 就可以把sam文件转换为bam文件并排序,对了在后面加 & 是为了能够并行

生成bam index

生成bam index是为了我们在IGV上面可以可视化我们的对比结果
同样的,我们还是使用samtools

samtools index AN12_11.bam &

好了,到此为止,对比就结束了

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值