Dfam-转座元件TEs数据库

昨天安装RepeatMasker(http://www.repeatmasker.org/RepeatMasker/)这个软件时,官网上提到了两个数据库,一个是Dfam,一个是RepBase,这两数据库都与RepeatMasker一起使用,通过全基因组搜索来识别与数据库中存在同源的序列进行基因组的重复序列注释。第一次见这两个数据库,只好去学习一下,顺便学习了转座元件(TEs)的概念,见公众号文章。

先学习一下Dfam

Dfam (http://www.dfam.org/)是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。Dfam还促进了TE个体的注释与运用于已知TE家族相关但已累积突变并远离共有序列的实例。

官网:http://www.dfam.org/

目前最新版本为Dfam 3.6 (April 2022), 1068个物种的732,993种基因家族序列。

点击相应的链接后,可以看到详细信息见下表:

回到主页面,点击DOWNLOAD:

最下面的userman.txt文件可以相信的读一下,就对目录内容有个大致的了解了。

目录1中有hg38目录,结合目录名字,考虑到人类参考基因组的相对完善性,对应的文件应该是用来对人的序列进行注释用的。

我点击进入/families/目录,先阅读README.txt文件,里面介绍了数据库文件的一些信息, 可以看到,有两种数据库类型可供下载,其中:

Dfam.* 包括 curated (DF) 和uncurated (DR) families.

Dfam_curatedonly.* 只包括 curated (DF) families.

此外,还有一些文件:

*.embl格式: 包含 EMBL-formatted consensus sequences and metdata,即EMBL格式的一致性序列及元数据;

*.hmm格式: includes profile Hidden Markov Models (pHMMs) and metadata for use with the hmmer suite of tools.即适用于hmmer的工具;

*.h5格式: 全名为HDF5 格式,为FamDB 文件,包含both consensus sequences and pHMMs, metadata, taxonomy structure and nomenclature, indexes, and other features.

关于 EMBL and HMM 文件更详细的信息,查看上一目录下的userman.txt文件。

因为我要用RepeatMasker,那么看一下和这些文件的关系吧:

(1)RepeatMasker ships with a copy of Dfam (curated families only). This can be replaced with a newer version of Dfam, or with the full set of curated and uncurated families.

(2)RepeatMasker 4.1.0 and earlier read Dfam in the EMBL or HMM format, depending on the search engine being used.

(3)RepeatMasker 4.1.1 and later read Dfam in the FamDB format.

看明白咋回事了吧,一定要查一下自己安装的版本,我的是RepeatMasker version 4.1.2-p1,下载FamDB格式(h5格式)的文件,也就是1和2,但第一条写到只用到curated families only,也就是第2个文件顺便把第1个也下载了。

第2个文件Dfam_curatedonly.h5.gz都是curated的(也就是不包含重头测序物种的),然后对文件进行解压缩和改名,只有改了名字,RepeatMasker才能识别到:

Dfam_curatedonly.h5.gz

mv Dfam_curatedonly.h5 Dfam.h5

我最终将Dfam.h5移动到了RepeatMasker/Libraries下,替换了原先存在的Dfam.h5文件。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值