- 2.4 用于标记和鉴别序列的索引编号
- DNA和蛋白质序列记录的重要特征是他们都被打上了索引编号作为标签。索引编号由一段4~12个数字和/或字母组成的编号,每个索引编号与一个分子序列记录相对于。
- 一个分子对应多个索引编号,这些索引编号可以代表全长/片段,代表核酸/蛋白质,需要尽快熟悉。
- 参考序列(RefSeq)项目
- 目的:为每一个基因的正常转录本和正常蛋白质产物提供最有代表性的序列。
- 对于一个给定的基因或基因产物,只会有一个RefSeq条目;如果基因有可变剪切或是在不同的基因座上,则会有几个RefSeq条目。
- RefSeq条目是由NCBI的工作人员人工审核后得到的数据,几乎没有冗余性。
- RefSeq有三种状态:预测的,暂时的,验证过的,但在每一个状态下,RefSeq条目都是为了统一序列记录。
- 以β球蛋白为例
- 以β球蛋白为例
- RefSeq条目索引编号的格式
- 格式
- β球蛋白为例