1. 确定人类基因组坐标版本
确定自己原始数据是什么版本,例如GRCh37/hg19、GRCh38/hg38等。
dbSNP数据库(https://www.ncbi.nlm.nih.gov/snp/):可以通过位点的SNP_ID,查询其所在的GRCh37或38坐标位置。
在转换的最后,可以用此方法检查坐标是否转换成功。
例如我的原始数据(PLINK格式的orgin.bed/bim/fam和ped/map)是GRCh38,我想转换成GRCh37。
#可以在质控后,也可以在质控前进行liftOver转换。
2. 转文本格式的.bed文件
liftOver转换只接受BED文本格式文件,通常用于表示基因组区间。
我手头的原始文件是 PLINK 的二进制 .bed 文件,而不是文本格式的 BED 文件。因此需要先转换格式。
BED格式文件只定义前三列,无表头 。
注:end不等于start(如果是单位点的话,建议所有end = start+1)
1. chrom:染色体名称(如 chr1、chr2)。
2. start:区间起始位置(0-based)。
3. end:区间结束位置(1-based)
#在终端输入:
cd <文件所在路径>
awk '{print "chr"$1, $4-1, $4, $2}' origin.bim > origin_lift.bed
# .bed 文件中的坐标是 0-based,而 .bim 文件是 1-based。
# 因此从1-based的坐标系向0-based坐标系转换:start=start-1,end=end
3. liftOver软件和chain文件下载: