BWA处理WES文件的用法及注意事项
1. 构建索引
bwa index -a bwtsw hg38.fa
构建索引时需要注意的问题:bwa构建索引有两种算法,两种算法都是基于BWT的,这两种算法通过参数-a is 和-a bwtsw进行选择。其中-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is是默认参数,这个参数不适用于大的参考序列,必须要小于等于2G。
整个过程会得到5个文件hg38.fasta.amb、hg38.fasta.ann、hg38.fasta.bwt、hg38.fasta.pac、hg38.fasta.sa
耗费时间较长,可以放到回台运行
nohup bwa index -a bwtsw hg38.fa &
2. 比对
比对时,用mem算法进行比对
bwa mem -t 4 -M -R '@RG\tID:SRR3023080\tSM:SRR3023080\tPL:Illumina' 索引路径/索引前缀 SRR3023080_1.fastq.gz SRR3023080_2.fastq.gz >SRR3023080.sam
-t参数,线程数;-R参数(-R ‘’,引号一定要加,不加会报错的,这都是我踩过的坑啊):设置reads标头,“\t”分割;M——将较短的split hits标记为secondary,与picard兼容;后边跟参考基因组(一定要给前缀)、reads文件和>以及要生成的sam文件。(如果GATK call SNP 必须用-r 参数)
得到sam文件后,用samtools工具转成bam文件,bam文件是sam文件的二进制格式,占的内存小。
samtools view -b -S SRR3023080.sam > SRR3023080.bam
参考链接:https://www.jianshu.com/p/f6da985913c4
参考链接:https://www.plob.org/article/7009.html
参考链接:https://www.bioinfo-scrounger.com/archives/181/