将cram/bam文件转换为fastq文件

NCBI下载的cram文件无法直接使用,需要先转成bam/sam文件,根据官网说明下载了cramtools,发现早已没有维护,报错如下:

$ java -jar cramtools-3.0.jar
Error: Invalid or corrupt jarfile cramtools-3.0.jar

所以就直接用samtools来转换,但是直接转换会报错:

$ samtools view -b NA12878.final.cram > NA12878.bam &
Failed to populate reference for id 0
Slice ends beyond reference end.
Unable to fetch reference #0 9996..35879
Failure to decode slice
[E::hts_close] Failed to decode sequence.
samtools: error closing "NA12878.final.cram": -1

需要用到参考基因组,并且参考基因组需要与cram的一致,如果不一致跑到不一致的地方就会报错:

$ samtools view -T /database/human/hg38/hg38.fa -b NA12878.final.cram > NA12878.bam &
ERROR: md5sum reference mismatch for ref 0 pos 248747869..248786716
CRAM: 720250455f7998c0d906314e9aae3434
Ref : 5e868f1c3be1506207b2097a2371c4c5
Failure to decode slice
[E::hts_close] Failed to decode sequence.
samtools: error closing "NA12878.final.cram": -1

所以要到NCBI找到cram对应的ref文件,千人基因组的参考文件路径在https://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/technical/reference/GRCh38_reference_genome/
下载下来重新运行就生成了bam文件。然后再把bam文件转换为fastq:

samtools fastq -1 NA12878_R1.fastq -2 NA12878_R2.fastq -0 NA12878_single.fastq -n NA12878.bam

拿到fastq文件后就可以用其他版本基因组重新比对,并进行后续分析了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值