HaploBlocker是分析单条染色体haplotype blocks,这也很容易理解,haplotype block是同一条染色体的某些区域。因此,分析时,需要按染色体或者Scaffold切分VCF文件。
准备HaploBlocker的准备文件,以Chr1为例。这里主要需要两个输入文件:
1)chr1.vcf_forR
该文件为SNP矩阵,行代表SNP位点,列代表样本。换句话说,就是不包含头信息和前9列信息的VCF文件,然后转化成下面这种格式。(想必大家应该能明白)
cut -f 1-10 chr1A_merged.vcf_forR | head -n 10 #显示前10列和前10行
T X X X T T C C C C
T T T T T T C T C C
X X X C C X C C X C
G H G G G G G G G G
A H A A A A A A G G
G G G G G G X G A H
G G G G G G G G G G
G G G G G G G G G G
X T T T X T X X X T
C C C C C C C C C X
在这里,我将杂合位点设置为H,将空值设置为X。如果不考虑空值和杂合位点,则将其设置为NA。
空值的原因有很多:①可能是未能检测到该样品的该位点信息,②也可能是由于该样本的该位点的缺失