【生物信息学学习】第一天:生物数据库使用

本文内容均来自山东大学生物信息学课程

生物数据库

这一篇文章主要介绍生物信息学需要用到的各个数据库

由于数据库的数量众多,本文将对数据库进行一个分类,并选取其中几个重要数据库进行分析。

核酸数据库蛋白质数据库专用数据库
NCBI-GenBankPubMed
EEMBL-ENA
DDBJ

一、文献搜索(PubMed)

你的导师给你扔来了一大段基因序列让你去研究,该如何进行呢?
你头大,你去问你师兄。你的师兄告诉你,这一段序列十分的像dUTPase。
但什么是dUTPase呢?你的师兄不告诉你

这时候我们就需要借助自己的力量,使用PubMed来解决!

1. 什么是PubMed

PubMed是拥有超过两百四十万的生物医学文献。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域数据杂志以及在线的专业书籍。
PubMed链接: http://www.ncbi.nlm.nih.gov/pubmed

在PubMed中进行搜索:

关于PubMed搜索的相关内容,通过WoS的知识进行理解。(后续会更新WoS搜索相关文章)

2. PubMed存在的问题

(1)搜索1995年前文献中排名是为以后的作者
(2)搜索1976年以前的文献是没有摘要的
(3)1965年前的文献较难搜索

通过PubMed我们了解到dUTPase到底是什么:
dUTP焦磷酸酶(dUTPase)是DNA合成中的一种关键酶,广泛分布于真核、原核细胞以及病毒等生命有机体内。该酶能够水解细胞质中的dUTP,从而最大限度地减少尿嘧啶在DNA合成中的错误插入,降低细胞中dUTP/dTTP的比例,维持基因组复制的保真度和顺利进行。

二、一级核酸数据库

当你对导师的任务有了一个初步的了解,之后就该去干活惹。那我们在哪里获取核酸的数据呢?

1. GenBank

GenBank是由美国国家生物技术信息中心(NCBI)开发并负责维护,隶属于美国国立卫生研究院(NIH)。
GenBank数据库: http://www.ncbi.nlm.nih.gov/

注意:在NCBI网站中需选择Nucleotide选项(GenBank)

解读GenBank

恭喜!到了这一阶段,说明你已经开始渐渐习惯打工人的生活了。我们现在开始学习你该学会的第一个技能:解读一级核酸数据库

在这一章,我们用真核生物和原核生物作为例子,来了解两者的基因在数据库中不同的存储以及注释方式

首先,我们得明白,为什么他们之间为何存在不同?

ProkaryotesEukaryotes
基因组大小0.5-91 million bp10-670,000 million bp
基因密度one gene / 1,000 bpone gene / 100,000 bp
编码区含量70%5%
基因是否线性分布
mRNA有无内含子

原核生物核酸数据库解读

当你了解到了真核生物和原核生物的区别之后。你的导师又跑来找你,让你搜索一下大肠杆菌(原核生物)dUTPase的DNA序列:X01714

那这时候我们就可以通过上面的几个数据库,轻松地得到对应的信息,X01714的DNA序列如下:

LOCUS       X01714                  1609 bp    DNA     linear   BCT 23-OCT-2008
DEFINITION  E. coli dut gene for dUTPase (EC 3.6.1.23) (deoxyuridine
            5'-triphosphate nucleotidohydrolase).
ACCESSION   X01714
VERSION     X01714.1
KEYWORDS    dUTPase; unidentified reading frame.
SOURCE      Escherichia coli
  ORGANISM  Escherichia coli
            Bacteria; Pseudomonadota; Gammaproteobacteria; Enterobacterales;
            Enterobacteriaceae; Escherichia.
REFERENCE   1  (bases 1 to 1609)
  AUTHORS   Lundberg,L.G., Thoresson,H.O., Karlstrom,O.H. and Nyman,P.O.
  TITLE     Nucleotide sequence of the structural gene for dUTPase of
            Escherichia coli K-12
  JOURNAL   EMBO J. 2 (6), 967-971 (1983)
   PUBMED   6139280
COMMENT     Data kindly reviewed (25-NOV-1985) by L. Lundberg.
FEATURES             Location/Qualifiers
     source          1..1609
                     /organism="Escherichia coli"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:562"
     regulatory      286..291
                     /regulatory_class="promoter"
                     /note="-35 region"
     regulatory      310..316
                     /regulatory_class="promoter"
                     /note="-10 region"
     misc_feature    322..324
                     /note="put. transcription start region"
     regulatory      330..333
                     /regulatory_class="ribosome_binding_site"
                     /note="put. rRNA binding site"
     CDS             343..798
                     /note="unnamed protein product; dUTP-ase (aa 1-151)"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25859.1"
                     /db_xref="GOA:P06968"
                     /db_xref="InterPro:IPR008180"
                     /db_xref="InterPro:IPR008181"
                     /db_xref="PDB:1DUD"
                     /db_xref="PDB:1DUP"
                     /db_xref="PDB:1EU5"
                     /db_xref="PDB:1EUW"
                     /db_xref="PDB:1RN8"
                     /db_xref="PDB:1RNJ"
                     /db_xref="PDB:1SEH"
                     /db_xref="PDB:1SYL"
                     /db_xref="PDB:2HR6"
                     /db_xref="PDB:2HRM"
                     /db_xref="UniProtKB/Swiss-Prot:P06968"
                     /translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
                     GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
                     RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"
     misc_feature    831..851
                     /note="put.stem-loop structure"
     repeat_region   831..838
                     /note="inverted repeat A"
     repeat_region   844..851
                     /note="inverted repeat A'"
     misc_feature    866..893
                     /note="put. stem-loop structure"
     repeat_region   866..872
                     /note="imp. inverted repeat B"
     repeat_region   888..893
                     /note="imp. inverted repeat B'"
     regulatory      889..895
                     /regulatory_class="ribosome_binding_site"
                     /note="pot. rRNA binding site"
     CDS             905..1540
                     /note="unnamed protein product; unidentified reading
                     frame"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25860.1"
                     /db_xref="GOA:P0C093"
                     /db_xref="InterPro:IPR001647"
                     /db_xref="InterPro:IPR009057"
                     /db_xref="InterPro:IPR011075"
                     /db_xref="InterPro:IPR015893"
                     /db_xref="UniProtKB/Swiss-Prot:P0C093"
                     /translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
                     EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
                     PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
                     QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"
ORIGIN      
        1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
       61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
      121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
      181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
      241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
      301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
      361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
      421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
      481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
      541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
      601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
      661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
      721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
      781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
      841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
      901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
      961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
     1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
     1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
     1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
     1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
     1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
     1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
     1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
     1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
     1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
     1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg
//

观察数据的第一行,是不是一时有些懵?这一段代表的是什么意思呢?用中文标记一下,或许更有利于理解:

LOCUSX017141609bpDNAlinearBCT 23-0CT-2000
基因座名核酸序列长度分子的类别拓扑类型更新时间

以下是剩余的几行相关术语的注解:

ACCESSION:检索号在数据库中是唯一旦不变的,即使数据提交者改变数据内容。ACCESSION不一定和IOCUS相同。(原因:LOCUS是真实姓名,ACCESSION是编号。同一个基因只有一个名字,但可以在不同的数据库中有不同的编号。)

VERSION:版本号的格式是“检索号.版本编号”。版本号于1999年2月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变。
(例如:由U12345.1变为U12345.2。)

GI (Genlnfo Identifier)号:与前面的版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的GI号,同时它的版本号將增加。

KEYWORDS:能够大致描述该条目的几个关键词。

SOURCE:基因序列所属物种的俗名。

ORGANISM:对所属物种的更详细定义,包括他的科学分类。

REFERENCE:基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMedID作为其子条目。

COMMENT:自由撰写内容,比如致谢或者无法归入前几类的内容。

FEATURES(重要信息): 描迷核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子 (ptomotet)等。
source:说明了核酸序列的来源,据此可以容易地分辦出该序列是来源于克隆載体还是基因组。当前序列(全长)来源于大肠杆茵的基因组DNA。
promotet:列出了启动子的位置。复习:细菌有两个启
动子区,一个-35区(5’-TTGACA-3〞)位置在第286
个碱基到第291个碱基,一个-10区(5’-TATAAT-3〞)
位置在第310个碱基到第316个碱基。
misc_ featute:混合内容。比如,这条说明了从第322个
碱基到第324个碱基是一个推测的(putative,推定,但无实验证实) 转录起始位置。
RBS (Ribosome Binding Site):核糖体结合位点。
CDs(CodingSegment):记录了一个ORF(open reading frame),从第343个碱基开始的ATG(起始密码子)到第798个碱基结束的TAA(结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。

  CDS             343..798
                     /note="unnamed protein product; dUTP-ase (aa 1-151)"
                     /*翻译产物蛋白的名字:该ORF编码其1-151个氨基酸*/
                     /codon_start=1
                     /transl_table=11
                     /*翻译起始位置和使用的密码本*/
                     /protein_id="CAA25859.1"
                     /db_xref="GOA:P06968"
                     /db_xref="InterPro:IPR008180"
                     /db_xref="InterPro:IPR008181"
                     /db_xref="PDB:1DUD"
                     /db_xref="PDB:1DUP"
                     /db_xref="PDB:1EU5"
                     /db_xref="PDB:1EUW"
                     /db_xref="PDB:1RN8"
                     /db_xref="PDB:1RNJ"
                     /db_xref="PDB:1SEH"
                     /db_xref="PDB:1SYL"
                     /db_xref="PDB:2HR6"
                     /db_xref="PDB:2HRM"
                     /db_xref="UniProtKB/Swiss-Prot:P06968"
                     /*中间一大段是该蛋白质序列在各蛋白质数据库中的检索号*/
                     /translation="MKKIDVKILDPRVGKEFPLPTYATSGSAGLDLRACLNDAVELAP
                     GDTTLVPTGLAIHIADPSLAAMMLPRSGLGHKHGIVLGNLVGLIDSDYQGQLMISVWN
                     RGQDSFTIQPGERIAQMIFVPVVQAEFNLVEDFDATDRGEGGFGHSGRQ"               		
                     /*计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列(不是实际获得)*/

/*该核酸序列还存在着潜在基因unidentified reading frame,是由计算机预测出的基因,编码蛋白在系统中无明确记录*/
  CDS             905..1540
                     /note="unnamed protein product; unidentified reading
                     frame"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="CAA25860.1"
                     /db_xref="GOA:P0C093"
                     /db_xref="InterPro:IPR001647"
                     /db_xref="InterPro:IPR009057"
                     /db_xref="InterPro:IPR011075"
                     /db_xref="InterPro:IPR015893"
                     /db_xref="UniProtKB/Swiss-Prot:P0C093"
                     /translation="MAEKQTAKRNRREEILQSLALMLESSDGSQRITTAKLAASVGVS
                     EAALYRHFPSKTRMFDSLIEFIEDSLITRINLILKDEKDTTARLRLIVLLLLGFGERN
                     PGLTRILTGHALMFEQDRLQGRINQLFERIEAQLRQVLREKRMREGEGYTTDETLLAS
                     QILAFCEGMLSRFVRSEFKYRPTDDFDARWPLIAASCSNMTPDDFSSGEFL"
/*核酸序列*/
ORIGIN      
        1 cagagaaaat caaaaagcag gccacgcagg gtgatgaatt aacaataaaa atggttaaaa
       61 accccgatat cgtcgcaggc gttgccgcac taaaagacca tcgaccctac gtcgttggat
      121 ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc
      181 ttgatctgat ctgcgcgaac gatgtttccc agccaactca aggatttaac agcgacaaca
      241 acgcattaca ccttttctgg caggacggag ataaagtctt accgcttgag cgcaaagagc
      301 tccttggcca attattactc gacgagatcg tgacccgtta tgatgaaaaa aatcgacgtt
      361 aagattctgg acccgcgcgt tgggaaggaa tttccgctcc cgacttatgc cacctctggc
      421 tctgccggac ttgacctgcg tgcctgtctc aacgacgccg tagaactggc tccgggtgac
      481 actacgctgg ttccgaccgg gctggcgatt catattgccg atccttcact ggcggcaatg
      541 atgctgccgc gctccggatt gggacataag cacggtatcg tgcttggtaa cctggtagga
      601 ttgatcgatt ctgactatca gggccagttg atgatttccg tgtggaaccg tggtcaggac
      661 agcttcacca ttcaacctgg cgaacgcatc gcccagatga tttttgttcc ggtagtacag
      721 gctgaattta atctggtgga agatttcgac gccaccgacc gcggtgaagg cggctttggt
      781 cactctggtc gtcagtaaca catacgcatc cgaataacgt cataacatag ccgcaaacat
      841 ttcgtttgcg gtcatagcgt gggtgccgcc tggcaagtgc ttattttcag gggtattttg
      901 taacatggca gaaaaacaaa ctgcgaaaag gaaccgtcgc gaggaaatac ttcagtctct
      961 ggcgctgatg ctggaatcca gcgatggaag ccaacgtatc acgacggcaa aactggccgc
     1021 ctctgtcggc gtttccgaag cggcactgta tcgccacttc cccagtaaga cccgcatgtt
     1081 cgatagcctg attgagttta tcgaagatag cctgattact cgcatcaacc tgattctgaa
     1141 agatgagaaa gacaccacag cgcgcctgcg tctgattgtg ttgctgcttc tcggttttgg
     1201 tgagcgtaat cctggcctga cccgcatcct cactggtcat gcgctaatgt ttgaacagga
     1261 tcgcctgcaa gggcgcatca accagctgtt cgagcgtatt gaagcgcagc tgcgccaggt
     1321 attgcgtgaa aagagaatgc gtgagggtga aggttacacc accgatgaaa ccctgctggc
     1381 aagccagatc ctggccttct gtgaaggtat gctgtcacgt tttgtccgca gcgaatttaa
     1441 ataccgcccg acggatgatt ttgacgcccg ctggccgcta attgcggcca gttgcagtaa
     1501 tatgacgccg gatgactttt catccggcga gtttctttaa acgccaaact cttcgcgata
     1561 ggccttaacc gccgccagat gttccgccat ttccggcttc tcttccagg

终于,我们把X01714的信息给解读完了,但此时还不能休息

我们还需要学会如何下载其信息,我们直接采用ctrlcv大法是不行的。我们把界面翻到最上面,可以看到两个选项:FASTA和Graphics。

点击FASTA我们可以获取FASTA格式的核酸序列信息,点击Graphics可以获取序列的图形概览。

在这里插入图片描述

真核生物核酸数据库解读

你的导师又派给了你一个任务,去研究一下人(真核生物)dUTPase的成熟mRNA(U90223)序列信息。

根据上文所述的技巧,我们可以得到真核生物的序列信息:

LOCUS       HSU90223                 960 bp    mRNA    linear   PRI 03-JAN-1998
DEFINITION  Human deoxyuridine triphosphate nucleotidohydrolase precursor mRNA,
            nuclear gene encoding mitochondrial protein, complete cds.
ACCESSION   U90223
VERSION     U90223.1
KEYWORDS    .
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 960)
  AUTHORS   Ladner,R.D. and Caradonna,S.J.
  TITLE     The Human dUTPase Gene Encodes Both Nuclear and Mitochondrial
            Isoforms: Differential Expression of the Isoforms and
            Characterization of a cDNA Encoding the Mitochondrial Species
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 960)
  AUTHORS   Ladner,R.D. and Caradonna,S.J.
  TITLE     Direct Submission
  JOURNAL   Submitted (19-FEB-1997) Dept. of Molecular Biology, Univ. of Med.
            and Dent. of NJ-School of Osteopathic Medicine, 2 Medical Center
            Drive, Stratford, NJ 08084, USA
FEATURES             Location/Qualifiers
     source          1..960
                     /organism="Homo sapiens"
                     /mol_type="mRNA"
                     /db_xref="taxon:9606"
     CDS             63..821
                     /note="mitochondrial dUTPase isoform; DUT-M"
                     /codon_start=1
                     /product="deoxyuridine triphosphate nucleotidohydrolase
                     precursor"
                     /protein_id="AAB94642.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     sig_peptide     63..269
                     /note="mitochondrial targeting presequence"
     mat_peptide     270..818
                     /product="deoxyuridine triphosphate nucleotidohydrolase"
ORIGIN      
        1 ggtggaagcc tggcgcacgt ccggaggtgc cgaggaccca accagcccaa actctggggg
       61 aaatgactcc cctctgccct cgccccgcgc tctgctacca tttccttacg tctctgcttc
      121 gctcagcgat gcaaaacgcg cgaggcacgg cagagggccg aagccgcggt actctccggg
      181 ccaggcccgc ccctcggccg ccggcggcgc agcacgggat tccccggccg ctgtccagcg
      241 ctggccgcct gagccaaggc tgccgcggag ccagtacagt cggggccgct ggctggaagg
      301 gcgagcttcc taaggcgggg ggaagcccgg cgccggggcc ggagacaccc gccatttcac
      361 ccagtaagcg ggcccggcct gcggaggtgg gcggcatgca gctccgcttt gcccggctct
      421 ccgagcacgc cacggccccc acccggggct ccgcgcgcgc cgcgggctac gacctgtaca
      481 gtgcctatga ttacacaata ccacctatgg agaaagctgt tgtgaaaacg gacattcaga
      541 tagcgctccc ttctgggtgt tatggaagag tggctccacg gtcaggcttg gctgcaaaac
      601 actttattga tgtaggagct ggtgtcatag atgaagatta tagaggaaat gttggtgttg
      661 tactgtttaa ttttggcaaa gaaaagtttg aagtcaaaaa aggtgatcga attgcacagc
      721 tcatttgcga acggattttt tatccagaaa tagaagaagt tcaagccttg gatgacaccg
      781 aaaggggttc aggaggtttt ggttccactg gaaagaatta aaatttatgc caagaacaga
      841 aaacaagaag tcataccttt ttcttaaaaa aaaaaaaagt ttttgcttca agtgttttgg
      901 tgttttgcac ttctgtaaac ttactagctt taccttctaa aagtactgca ttttttactt
//


观察这一大串符号我们可以发现,真核生物和原核生物在数据库中的数据排列方式很类似,但是却出现了两个不一样的条目:

  sig_peptide     63..269
                     /note="mitochondrial targeting presequence"
  /*该段指出了编码用于亚细胞定位的信号肽的碱基位置*/
  mat_peptide     270..818
                     /product="deoxyuridine triphosphate nucleotidohydrolase"
  /*该段指出了编码成熟蛋白的碱基位置 */

mat_peptide 270…818的编码位置与 CDS 343…798相差了三个碱基,为什么?
回答:在这一段序列最后的三个氨基酸为编码区的终止密码子(不翻译)

新任务!:研究一下人(真核生物)dUTPase的基因组DNA序列信息(AH005568)

LOCUS       AH005568                5507 bp    DNA     linear   PRI 10-JUN-2016
DEFINITION  Homo sapiens dUTPase (DUT) gene, complete cds, alternatively
            spliced.
ACCESSION   AH005568 AF018429 AF018430 AF018431 AF018432
VERSION     AH005568.2
KEYWORDS    .
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 5507)
  AUTHORS   Pearlman,R.E.
  TITLE     Human genomic nuclear and mitochondria dUTPase gene
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 5507)
  AUTHORS   Pearlman,R.E.
  TITLE     Direct Submission
  JOURNAL   Submitted (11-AUG-1997) Biology, York University, 4700 Keele St.,
            North York, ONT M3J 1P3, Canada
COMMENT     On or before Jun 10, 2016 this sequence version replaced
            AF018429.1, AF018430.1, AF018431.1, AF018432.1, AH005568.1.
FEATURES             Location/Qualifiers
     source          1..5507
                     /organism="Homo sapiens"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:9606"
                     /map="15q15-q21.1"
     gene            <1..>5236
                     /gene="DUT"
     mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"
     CDS             join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-M; alternatively spliced; mitochondrial form of
                     the protein; similar to H. sapiens dUTPase encoded by
                     GenBank Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71393.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1
     protein_bind    898..903
                     /gene="DUT"
                     /bound_moiety="SP-1"
     protein_bind    935..943
                     /gene="DUT"
                     /bound_moiety="E2F"
     mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"
     CDS             join(1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-N; alternatively spliced; nuclear form of the
                     protein; similar to H. sapiens dUTPase encoded by GenBank
                     Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71394.1"
                     /translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
                     AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
                     EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
                     TGKN"
     exon            <1018..1172
                     /gene="DUT"
                     /note="alternative exon used in nuclear form of the
                     protein"
                     /number=2
     exon            1034..1172
                     /gene="DUT"
                     /note="alternative exon used in mitochondrial form of the
                     protein"
                     /number=2
     gap             1736..1835
                     /estimated_length=unknown
     exon            2395..2486
                     /gene="DUT"
                     /number=3
     gap             3013..3112
                     /estimated_length=unknown
     exon            3113..3157
                     /gene="DUT"
                     /number=4
     gap             3690..3789
                     /estimated_length=unknown
     exon            4447..4521
                     /gene="DUT"
                     /number=5
     exon            4673..4743
                     /gene="DUT"
                     /number=6
     exon            5180..5236
                     /gene="DUT"
                     /number=7
ORIGIN      
        1 tcggaaaaat gggggccaga gcaaacaaga agagcgaaag caagagggct aggcagccag
       61 aggcggcagc aagactcaag acgccaacgg cgctgtttcc tggggcccca gggcttgcgc
      121 catccctggg ctgccggggc accgcctctc cacgcccctc gtccggcggc ggctgcgact
      181 gcttccgagg tcatgttccc aggacgggcg cgtcttcagg gtggaagcct ggcgcacgtc
      241 cggaggtgcc gaggacccaa ccagcccaaa ctctggggga aatgactccc ctctgccctc
      301 gccccgcgct ctgctaccat ttccttacgt ctctgcttcg ctcagcgatg caaaacgcgc
      361 gaggcacggc agagggccga agccgcggta ctctccgggc caggcccgcc cctcggccgc
      421 cggccgcgca gcacgggatt ccccggccgc tgtccagcgc tggccgcctg agccaaggct
      481 gccgcggagc cagtacagtc ggggccgctg gctggaaggg cgagcttcct aaggcggggg
      541 gaagcccggc gccggggccg ggtaggaaag gcgggggagg ggctccggcc gtctggaagg
      601 aatccaacgc ggcttgaggc tgtggggaag tagggtggcg agcggtcctt ctgcgcgcgg
      661 ggggccgggg gggtggggtg gtccattagg gtcccctggc gagggggcgg ctttctagtg
      721 tgtgaaggcg acgccctaga agctcccctt caaagttggc cccacgcgct gaatgtggaa
      781 agttgactgg gacccagtag tttcccatcc caaacctgct ttccgagaag ggcttcaaac
      841 ccaaaatgtg aatcccgcct cccctctcag ccagaactgt ggactcgtcc cggggagggg
      901 cggtgggtgg ggcggggctg gcgggaaatt tcggttttgg cgcgctccct gcggcgacgc
      961 tcatcgtgcg ctctcctctt cccccggtgg tctcctcgct cgccttctgg ctctgccatg
     1021 ccctgctctg aagagacacc cgccatttca cccagtaagc gggcccggcc tgcggaggtg
     1081 ggcggcatgc agctccgctt tgcccggctc tccgagcacg ccacggcccc cacccggggc
     1141 tccgcgcgcg ccgcgggcta cgacctgtac aggtgagcgg ggacctgccg gcgaggaggc
     1201 tgggaagggc cggccgtccg ctgccacagc tagaaacagt caccggagag atcacaggaa
     1261 cacactagct ataaatagga tttctgcctt tttcgtgttt aaaattttag ctttcatctt
     1321 tggcataaat taaatagaga tttgggcaaa gactgcagaa taagtaaaat agctatacgg
     1381 tgtctagcaa ggcgttactt tgcaacgttt attgtgccct tcctaaatag aagatagaga
     1441 ggaaggccca tggtggcttt cgaagtggcc cgagggtgat gctgtgctca atagaaaaac
     1501 caaggtgaga gcctagatgt gagcgtgaaa atacctaaga aggatgaacg aagatgcatc
     1561 tgccttaaaa agttatttct atacattcat ccggcccagg gcggaatttg agaagcatct
     1621 gaaaacgaag gcagactgcc tgtatctacc acactttcat ctctacagca cgttttactg
     1681 tactaaaact tcccgtatgc tgttgtatag tcctccacac atccctaact agata     
          [gap 100 bp]    Expand Ns
     1836                                       tccct aaatcaacac agatcatgtg
     1861 gaggaataaa atggggttaa tatatgtaaa accaattagg aaactgtttc tggggcaaca
     1921 cagtaaaggg cttattcaat ggataggcta gtattattag ttagtaattg ggcccttttt
     1981 ttctttgttt cttttcttca tttttttcct tttcaaacta tgggttgtaa agcatccacc
     2041 ttttgaaagt ttgcctttct gccctttcac gctgataagt acctcagttt ccaataaact
     2101 tttgttcagg ggcaaacatt tacaatgttg acatctcttc acaccaccaa aaatattcat
     2161 ggagaattat tttatctaaa gctgtctttt taataataaa atagccacct ctaccttctt
     2221 cataaacttt taagatgaat tggtaattca tcatagcaag gttgatttta gaaactaaag
     2281 ttgcattaat tcattaaata cactgaaagt aattttgtat gcttggtcac aaagaaaata
     2341 taaaaacaat tttataaata gatttgcagt tattttcttt caatattttc ttagtgccta
     2401 tgattacaca ataccaccta tggagaaagc tgttgtgaaa acggacattc agatagcgct
     2461 cccttctggg tgttatggaa gagtgggtaa gtcatttaag aaacaggtaa ctatttgtca
     2521 agttctcctt tgtgatagat tcttcatgtt tcatttgggg taataagcag gcaatattgc
     2581 ttgggctgtg tcctaaaaga agcaccattt gtgatagcaa atgcactctt tgaaaggctt
     2641 tatttacatc tctgctttgc ctctttttga cccttttatt tttctccttc ctcactggag
     2701 cttttaggct cacactggcc tagaaggctg ttctcagaac atggcatttt atattatgag
     2761 agtaaaactt ctgacctgtt ggtcccagaa tgtgtaagcc tacttaacct tttcttgttt
     2821 ggccatgggg tttagggtaa gggatactct tcagtgtttg tagaggcact gggaggaagc
     2881 taggacaaaa tggagttaca cgtcaacagg tttgattttt cctggaagcg aattcagtgt
     2941 ttaccagaca gttcctttgc agagcgttag ttcctttttg actacttcca agttaactta
     3001 aggaggcatg ga                                                    
          [gap 100 bp]    Expand Ns
     3113                                                          ctccacgg
     3121 tcaggcttgg ctgcaaaaca ctttattgat gtaggaggta atatatttcc ttttttattc
     3181 tgtaaatgtt tgcaagtatt tactttgtct ttaaaaggta atattcaaat gacagatttt
     3241 atttttaaga aaagaaaatg attagaggaa agcttgttat aataggagga aaagctttgt
     3301 ggttatttta agtaattata ttttgtttaa ctactaactt aatttttaaa ataatgatta
     3361 cctaattaat aatgacagat ttaatgatat aataattaag taattattta agcaacaaaa
     3421 gttctagaaa acacaggtct atcttgtaag aattttcttc ataagagagc tatctgtctt
     3481 tagcaaaatt taagaagaaa atctttccct gaagtcagga gagaaaacac ttttctctaa
     3541 atttgttaag acagtccctc tgtgttacct gtttcccctt tataataaag cctttctcat
     3601 gtttggtcct caaagttaac ccctacctcc tgttggtacc ctttcatgaa gaaccctcag
     3661 tgtccccccg gccaactaac ccctgatac                                  
          [gap 100 bp]    Expand Ns
     3790          t cccccgggtc atattctaac agtatataca caaaaagtgt actcaggaag
     3841 cctatgtgct acagtctctg agaaccatgt ctaaggaagg atggtggttc agattaaaag
     3901 gagaggaaga ttatgaactg aaaaatacag ctcattttta gtgtaaaaat ggaatattct
     3961 aatatttgca agactgctgc ttaacaatgt cagcgttgat ttactccact gcagagcttt
     4021 aggctttttg acatttttat ttatgactca attgtatttc aatctgggta ttagcgggaa
     4081 gctgatacca ggaaaaacct ttaaaaccca aattgtaatt ttctcctagt ctttttggca
     4141 agtgtgccgt gggtagacag taggttggag atggccattg ctactgccag cttaaaatag
     4201 gaaatggtcg ccatttgata aagagtgaca ggttggaaaa ttaggacctg ttttctaaat
     4261 ttttatttgt attttagtaa tgtcatttct tggttttgag gctttacata gtaccagggc
     4321 aagattcact tattcaattg taagaataca aatctcagag ctacatgata atgattttga
     4381 gataatctta cacctctagt attccaatag caaaaattga gataatatta cttttctttt
     4441 ctctagctgg tgtcatagat gaagattata gaggaaatgt tggtgttgta ctgtttaatt
     4501 ttggcaaaga aaagtttgaa ggtatgttaa atatatacat tcacataatt ttagtgaatt
     4561 ttcagagtca tgtatgtgta aattaatatt gactccttta attctcattg aataagacag
     4621 gatatggcga atgtgtcagt aacgtcagta ataaactatt ctttctttga agtcaaaaaa
     4681 ggtgatcgaa ttgcacagct catttgcgaa cggatttttt atccagaaat agaagaagtt
     4741 caagtaagta ttacaaagga agatacagaa taagtaatat aacatcttaa gtgaagaaat
     4801 atatataatc ttgagaattt aatatgctgt ttgtaactaa atagtatata tgactaaact
     4861 tattttaagc aaatttaaaa tactagtttt agaatttctt taaatgtttt tcatgtagct
     4921 attatgtagt attactttgg ataataagtt atttaaacat actgtgaact tctaatattt
     4981 tattagaatt ttttaaagtt atccagtatt ctaatttatg gagcttttta gaatttaatt
     5041 ttctttctgt aatctccctt ttgaaaagat gatatagcaa gagtagaatt ctggctgtat
     5101 ttttcttagg agctggagag gaaaactgaa agatgctctt aaaaaaaact gtgaagctta
     5161 ctacctttct atctttcagg ccttggatga caccgaaagg ggttcaggag gttttggttc
     5221 cactggaaag aattaaaatt tatgccaaga acagaaaaca agaagtcata cctttttctt
     5281 aaaaaaaaaa aaaaagtttt tgcttcaagt gttttggtgt tttgcacttc tgtaaactta
     5341 ctagctttac cttctaaaag tactgcattt tttacttttt tttatgatca aggaaaagat
     5401 cattaaaaaa aaacacaaag aagtttttcc tttgtgttgg gatcaaaaga aactttgttt
     5461 tcccgcaatt gaagggttgt atgtaaatcg ccttgttgtg aaccaca
//

我们观察FEATURES段:

FEATURES             Location/Qualifiers
     source          1..5507
                     /organism="Homo sapiens"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:9606"
                     /map="15q15-q21.1"
     gene            <1..>5236
                     /gene="DUT"
     mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"
     CDS             join(282..561,1034..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-M; alternatively spliced; mitochondrial form of
                     the protein; similar to H. sapiens dUTPase encoded by
                     GenBank Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71393.1"
                     /translation="MTPLCPRPALCYHFLTSLLRSAMQNARGTAEGRSRGTLRARPAP
                     RPPAAQHGIPRPLSSAGRLSQGCRGASTVGAAGWKGELPKAGGSPAPGPETPAISPSK
                     RARPAEVGGMQLRFARLSEHATAPTRGSARAAGYDLYSAYDYTIPPMEKAVVKTDIQI
                     ALPSGCYGRVAPRSGLAAKHFIDVGAGVIDEDYRGNVGVVLFNFGKEKFEVKKGDRIA
                     QLICERIFYPEIEEVQALDDTERGSGGFGSTGKN"
     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1
     protein_bind    898..903
                     /gene="DUT"
                     /bound_moiety="SP-1"
     protein_bind    935..943
                     /gene="DUT"
                     /bound_moiety="E2F"
     mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"
     CDS             join(1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..5236)
                     /gene="DUT"
                     /note="DUT-N; alternatively spliced; nuclear form of the
                     protein; similar to H. sapiens dUTPase encoded by GenBank
                     Accession Number U90224"
                     /codon_start=1
                     /product="dUTPase"
                     /protein_id="AAB71394.1"
                     /translation="MPCSEETPAISPSKRARPAEVGGMQLRFARLSEHATAPTRGSAR
                     AAGYDLYSAYDYTIPPMEKAVVKTDIQIALPSGCYGRVAPRSGLAAKHFIDVGAGVID
                     EDYRGNVGVVLFNFGKEKFEVKKGDRIAQLICERIFYPEIEEVQALDDTERGSGGFGS
                     TGKN"
     exon            <1018..1172
                     /gene="DUT"
                     /note="alternative exon used in nuclear form of the
                     protein"
                     /number=2
     exon            1034..1172
                     /gene="DUT"
                     /note="alternative exon used in mitochondrial form of the
                     protein"
                     /number=2
     gap             1736..1835
                     /estimated_length=unknown
     exon            2395..2486
                     /gene="DUT"
                     /number=3
     gap             3013..3112
                     /estimated_length=unknown
     exon            3113..3157
                     /gene="DUT"
                     /number=4
     gap             3690..3789
                     /estimated_length=unknown
     exon            4447..4521
                     /gene="DUT"
                     /number=5
     exon            4673..4743
                     /gene="DUT"
                     /number=6
     exon            5180..5236
                     /gene="DUT"
                     /number=7

第五行的 /map=“15q15-q21.1”,指出了该序列属于第15号染色体,更精确地说是该染色体的长臂q上的q21.1条带内。

  gene            <1..>5236
                     /gene="DUT"

gen指出了完整基因的具体位置。

mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"

mRNA指出了所有外显子的具体位置,mRNA中的基因串起来相当于完成了剪切的过程,就是成熟的mRNA。

值得注意的是,剪切后的mRNA有两种:

mRNA            join(<282..561,1034..1172,2395..2486,3113..3157,
                     4447..4521,4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes mitochondrial form
                     of the protein"

 mRNA            join(<1018..1172,2395..2486,3113..3157,4447..4521,
                     4673..4743,5180..>5236)
                     /gene="DUT"
                     /product="dUTPase"
                     /note="alternatively spliced; encodes nuclear form of the
                     protein"

上方的mRNA在前端多一个外显子,这一块将被翻译为定位线粒体的信号肽,从而翻译出线粒体型的蛋白质。下一种没有信号肽的,将形成细胞核型蛋白质。

     exon            <282..561
                     /gene="DUT"
                     /note="exon used only in the mitochondrial form of the
                     protein"
                     /number=1

exon段表示的含义是:当前序列所包含的282-561号碱基是“DUT”基因的第一个外显子。

2. ENA

欧洲核苷酸序列数据集(ENA)是由欧洲分子生物学研究室(EMBL)开发并维护。
ENA数据库: http://www.ebi.ac.uk/ena/

3. DDBJ

日本DNA数据库(DDBJ),由位于日本国立遗传学研究所(NIG)开发并负责维护。
DDBJ数据库: http://www.ddbj.nig.ac.jp/

4. INSDC

INSDC是三家数据库共同组成的国际核酸序列数据库合作联盟,通过每日的数据共通,使得他们几乎在任何时候都享有相同的数据。
INSDC数据库: http://www.insdc.org/

5. 基因组数据库Ensemble

这部分我们来学习使用Ensemble基因组数据库

Ensemble链接: http://www.ensembl.org

Ensembl是由欧洲生物信息学研究所(EBI)和英国桑格研究院合作开发。Esemble收入了各种动物的基因组,特别是那些离我们人类相近的动物。这些基因组的注释都是通过配套开发的软件自动添加的。

通过点击上方的连接我们可以前往Ensemble的官网。
在这里插入图片描述
从中我们可以获取到染色体一览图等信息:
在这里插入图片描述
点击DNA条段,可以进入查看条段的详细信息。从上文的学习可以得知,DUT基因位于15号染色体的长臂条段21.1附近,我们进入这条条段查看一下。

点击条段进入

在这里插入图片描述

进入之后可以看到该条段的详细信息

在这里插入图片描述

我们在基因图谱中找到DUT基因,并以其为中心放大

在这里插入图片描述

点击DUT基因在Ensemble数据库中的检索号,便可以得到该基因在数据库中的详细记录。

在这里插入图片描述

6. 微生物宏基因组数据库JCVI

JCVI链接: http://www.jcvi.org

美国基因组研究所(TIGR)致力于为生物基因组的研究,也有部分植物基因组项目。它是克莱格·凡特研究所(JCVI)的一部分,自1995年成立之初的两个基因组,至今已有超过700个基因组。TIGR是NCBI基因组资源的有力补充,因为它不仅拥有已经完成测序的基因组,还有哪些测序中的基因组信息。

三、二级核酸数据库

二级核酸数据库包含的内容很多,经常会用到的几个数据库有:NCBI下属的RefSeq数据库,dbEST数据库以及Gene数据库。

RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。

dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)

Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录

ncRNAdb:非编码RNA数据库,提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万多条序列。

ncRNA链接: http://biobases.ibch.poznan.pl/ncRNA/

miRBase:主要存放已发表的microRNA序列和注释。可以分析microRNA在基因组中的定位和挖掘miRNA序列间的关系。

miRBase链接: http://www.mirbase.org/

至此,今天对基因库的学习基本上就告一段落。之后需要的就是多搜索几个DNA序列,来巩固自己的所学。

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值