使用 wtdbg2 进行基因组的组装,软件安装这里就不介绍了,流程都一样。可以用conda安装,也可以自己去下载安装包,源码编译安装,安装完记得添加环境变量。
下面介绍一下 wtdbg2 对三代 基因组数据的组装,网上有很多教程,但是都不够完整,之前看了陈连福的教程跑完但是没有用二代和三代数据进行纠错处理。
#用过滤 后的数据进行基因组组(组装之前得先进行质控、过滤和survery分析,以评估数据的碱基质量是否值得组装。这些 后面有时间的话 会给补上)
wtdbg2 -t 30 -p 0 -k 15 -AS 2 -E 1 -s 0.05 -L 5000 -x nanopore -g 800m -i ssy_filter_reads.fa -fo ssy_filter_reads_1#运行下面这步后就会生成组装后的fasta序列,文件路径自己注意修改wtpoa-cns -t 30 -i ssy_filter_reads_1.ctg.lay.gz -fo ssy_filter_reads.ctg.lay_1.fa
运行上面两个脚本之后基因组组装就完成了,数据量比较大的话 记得挂后台跑。
下面就得用原始三代数据和二代数据对组装好的fasta文件进行纠错处理。这个网上的教程也很多,纠错软件也很多,有用racon + polin 的,也用用 minimap2+bwa的,熟练掌握一个能将流程跑通即可,也可以混合使用。一般迭代两三次进行纠错就好了。
下面介绍用 minimap2 使用 三代数据纠错 和 使用 bwa (适合短序列)使用 二代数据进行抛光处理:
#用三代数据进行纠错: (这步用nohup挂后台跑会报错 使用screen 挂后台跑)
minimap2 -t 16 -ax map-pb -r 2k dbg.raw.fa reads.fa.gz | samtools sort -@4 >dbg.bam samtools view -F0x900 dbg.bam | wtpoa-cns -t 16 -d dbg.raw.fa -i - -fodbg.cns.fa
#用二代数据进行纠错:
bwa index dbg.cns.fa bwa mem -t 16 ../dbg.cns.fa sr.1.fa sr.2.fa | samtools sort -O SAM | wtpoa-cns -t 16 -x sam-sr -d ../dbg.cns.fa -i - -fo dbg.srp.fa
下面附带介绍一下 screen 的使用方法:
使用 screen 可以在后台运行 进程
screen -S zsx 创建一个新窗口
screen -ls 查看所有窗口
screen -r [name] 进入某个窗口
screen -d [name] 退出某个窗口
screen -S [name] -X quit 删除某个窗口
也可以 kill -9 窗口进程号删除 ,之后 需要运行 screen -wipe 清除 死去的窗口
快捷会话分离 回到主窗口 Ctrl+A 然后 D