01 背景
拟南芥参考基因组,使我们进行同源注释,基因家族扩张收缩分析,全基因组复制分析等必备输入文件,目前参考基因组有两个版本:
TAIR10_protein_lists和Araport11_protein_lists
阿拉伯芥信息资源 (TAIR) 维护着一个关于模式植物拟南芥(Arabidopsis thaliana)的遗传学和分子生物学数据的数据库。TAIR 提供的数据包括完整的基因组序列、基因结构、基因产物信息、基因表达、DNA 和种子库、基因组图谱、遗传和物理标记、出版物以及拟南芥研究社区的信息。基因产物功能数据每周都会根据最新发表的研究文献和社区数据提交进行更新。TAIR 还在其数据页面上提供了广泛的链接,指向其他拟南芥资源。
https://www.arabidopsis.org/ #官网
https://www.arabidopsis.org/download/list?dir=Proteins #直达蛋白序列
然后下载两个版本的蛋白质组就可以了。
02 区别
TAIR10和Araport11是拟南芥(Arabidopsis thaliana)基因组的两个参考版本,都是由The Arabidopsis Information Resource (TAIR)和相关项目维护的,主要用于提供基因组序列、基因结构、基因功能等信息。它们的差别主要体现在更新和改进的内容上。
1. TAIR10:
- 发布时间:2010年
- 特点:这是拟南芥基因组的第10个版本,也是一个重要的参考基因组版本。它提供了完整的基因组序列、基因注释、基因功能预测、表达信息等。
- 基因注释:TAIR10包含的基因注释基于当时可用的实验数据和生物信息学预测,较为稳定,广泛被研究者引用和使用。
- 局限性:由于这是2010年发布的版本,它可能未包含之后的研究中发现的新基因或修正的基因结构。
2. Araport11:
- 发布时间:2016年
- 特点:Araport11是一个较新的拟南芥基因组版本,是在TAIR10基础上的更新和修订。它由Araport项目(与TAIR合作)发布,整合了更多的最新实验数据和文献中的基因功能信息。
- 改进内容:
- 增加了更多的基因注释和修订了基因结构,包含了比TAIR10更多的基因和转录本注释。
- 引入了基于更全面数据集的预测,改进了功能注释和基因家族分类。
- Araport11还整合了更多高通量实验数据,如转录组和蛋白质组学数据,因此在基因表达和蛋白质功能方面更为详尽。
TAIR10_protein_lists和Araport11_protein_lists的区别:
- TAIR10_protein_lists:基于2010年发布的TAIR10版本中的蛋白质列表,列出了所有在TAIR10中注释的蛋白质及其功能。
- Araport11_protein_lists:基于2016年发布的Araport11版本,包含了修订后的蛋白质注释,可能包含了更多的蛋白质序列、修正的功能预测以及新的蛋白质功能数据。
总之,Araport11是对TAIR10的更新,提供了更为全面的基因注释、功能预测和数据整合,因此Araport11_protein_lists相比TAIR10_protein_lists更加完善和最新。