三个部分:①原始数据质控,②比对, ③变异检测。
质控软件(fastqc)
fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq
-o --outdir:输出路径 -t --threads:线程数
比对软件(bwa+samtools)
建立索引 index
bwa index ref.fa
比对
bwa mem ref.fa sample1_1.fq sample1_2.fq > samples.sam
samtools转换
samtools view -b samples.sam -o samples.bam
排序
samtools sort samples.bam -o samples.sort.bam
picard 去除重复
picard MarkDuplicates -I samples.sort.bam -O samples.markedDup.bam -M file_markedDup_metrics.txt -REMOVE_DUPLICATES true
samtools index samples.markedDup.bam
变异检测(gatk)
java -jar gatk-package-4.1.9.0-local.jar HaplotypeCaller -R ref.fa -I samples.markedDup.bam -O samples.g.vcf -ERC GVCF
gvcf文件合并
ls *.g.vcf.gz > all_gvcf
gatk CombineGVCFs -R ref.fa -V all_gvcf.list -O merged.g.vcf.gz
gvcf文件转vcf文件
gatk GenotypeGVCFs -R ref.fa -V merged.g.vcf.gz -O genotype.vcf.gz