RNA-seq流程学习笔记(5)-Linux系统下载UCSC人类基因组和基因注释文件(未完成)

说明:此文章因为从同事那里获取了响应文件,因此并未实际操作完成,为了帮助有需要的网友学习,故此把未完成的草稿发出来,提供一些自己的思路。

主要参考文章:
基因组各种版本对应关系
测试数据及参考基因组的准备
RNA-seq(4):下载参考基因组及基因注释
人类基因组hg19、hg38构建bwa索引

在网上查了两天怎么下载参考基因组的方法,写了一天多的记录方法,回头才搞明白:UCSC网站已经提供了现成的参考基因组序列的打包文件,参考基因组对于生信老白果然也是个坑啊,调整一下记录给大家参考,省得以后的小白再入坑。

1. 下载参考基因组的原因

我们测序得到的是几百bp的短read(具体长短还有差异?需要进一步学习), 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。目前人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行,因此首先要去下载现成的基因组,用来做参考。

2. 不同基因组版本

人类基因组是测序后保存的序列信息,储存的是fasta序列。目前国际通用的人类参考基因组版本有三种,分别对应着三个国际生物信息学数据库资源收集存储单位,即NCBIUCSCENSEMBL各自发布的基因组信息。一些比较小众的参考基因组存储的序列不一样,比如BGI做的炎黄基因组、沃森(Watson࿰

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值