课程地址:复旦大学遗传学
文章目录
六、基因组
6.1 基因组概论
6.1.1 基因组概念、分类与性质
-
基因组 (
genome
) 指的是细胞内全套染色体及其所携带的全部基因,包括基因序列和基因间序列。 -
基因组学 (
genomics
) 是一门对某一物种的所有基因进行基因组作图、核苷酸序列测定和基因功能分析的分支学科。 -
基因组的分类:
■ 从物种角度进行分类,可分为病毒基因组、原核生物基因组和真核生物基因组。
■ 真核细胞基因组:核基因组、线粒体基因组、叶绿体基因组
■ 原核细胞基因组:类核、质粒
■ 病毒基因组:DNA 病毒基因组、RNA 病毒基因组 -
C 值 (
C Value
) 是指在每一种生物中其单倍体基因组的 DNA 总量。每种生物都有其特定的 C 值,它反映了基因组的特异性与差异性。 -
如图,两栖类、鱼类、植物、原生动物 C 值较大,细菌 C 值较小,但同一个纲目,不同的种、属的生物的 C 值差别非常大,哺乳动物 C 值和爬行类、软体动物是相近的。
-
生物的 C 值并不与生物复杂程度(或进化上所处地位)相关的现象称作 C 值悖论 (
C Value paradox
)。 -
基因组中全部基因的数目与物种的复杂程度同样没有明显的相关性这被称为 G 值悖论(
G Value paradox
)。例如,拟南芥的基因数是果蝇的近两倍。
6.1.2 基因组的结构与功能特点
(1)病毒基因组
-
以乙型肝炎病毒 (
Hepatitis B virus, HBV
) 基因组为例 -
HBV 基因组为不完全双链 DNA 分子,大小为 3.2kb。
-
HBV 含有 4 个基因,分别编码衣壳蛋白 S、DNA 多聚酶 P、核心蛋白 C、未知功能蛋白 X。
-
HBV 最显著的特点就是基因重叠,例如,S 基因完全重叠于 P 基因,X 与 C、P,C 与 P 之间都有重叠。
-
病毒基因组的特点:
- 基因组大小从几 kb 到几百 kb 不等。
- 基因组的结构形式多样。
- 通过多种方法在较小的基因组容量内提高携带遗传信息的效率,比如基因组内非编码序列所占的比例极少,含有大量的重叠基因。
- 基因组内存在操纵子结构。功能相关的基因聚集分布,在同一个调节区域的调控下一起转录。
(2)原核生物基因组
- 以大肠杆菌 (
Escherichia coli
) K-12 菌株为例 - 闭合环状双链 DNA,大小为 4.6Mb。
- 87.8% 的序列是蛋白质编码基因,编码 4288 个蛋白,主要是代谢和合成酶类以及结构组成蛋白。
- 0.8% 负责编码 RNA 产物,0.7% 是非编码重复序列,余下 10.7% 的序列负责基因表达调控和其他未知功能。
- 两条 DNA 链都能作为模板进行基因转录,基因间间隔的平均大小仅为 118bp。
- 原核细胞基因组的特点
- 闭合的环状双链 DNA 分子,包括类核与质粒。但质粒是染色体外 DNA , 不是细菌存活所必需的。
- 多数基因是单拷贝基因。两条 DNA 链都可编码基因,非编码序列的比例很低。重叠基因的比例显著减少。
- 含有少量重复序列,也含有一些特殊的 DNA 结构元件,如复制起始区、转录终止子等。
- 基因的组织顺序和染色体复制方向有关,存在大量操纵子结构,功能相关的基因通常一起转录。
(3)线粒体基因组
- 真核生物细胞内的线粒体和叶绿体都含有独特的细胞器 DNA,它们同样是维持真核细胞生存必不可少的条件,是基因组的重要组成部分。
- 以智人 (
Homo Sapiens
) 线粒体为例,线粒体基因组图谱如图,在全长 16569bp 的序列中,编码与呼吸链相关的 13 个蛋白质分子、22 个 tRNA 分子和 2 个 rRNA 分子,基因的组织效率非常高,基因间的非编码序列非常少,没有内含子,且存在重叠基因现象。
- 线粒体基因组的特点:
- 裸露的环形 DNA 分子。除了少数低等真核生物线粒体基因组为线性外,大多数生物的线粒体基因组和人一样,都是裸露的环形 DNA 分子。
- 主要编码少量 rRNA、tRNA 和部分呼吸链组分蛋白质等。线粒体的结构和生命活动都需要核基因组的参与和调控。
- 线粒体基因组大小和生物的复杂程度无关。
- 线粒体 DNA 是多拷贝的,在胞质分裂的过程中不同的线粒体 DNA 随机分配给子细胞。
(4)叶绿体基因组
-
以第一个完成全基因组测序的烟草叶绿体为例
-
叶绿体基因组的特点:
- 闭合环状 DNA,有多个拷贝,且拷贝数可变。
- 基因组大小比线粒体大,多数为几百 kb 大小。
- 编码的基因数较多,包括 tRNA 基因、rNA 基因、RNA 聚合酶基因、核糖体蛋白编码基因、光合作用相关蛋白组分的编码基因等,且含有大量内含子序列。烟草叶绿体大约含有 150 个基因。
- 含有两段数十 kb 大小的反向重复区(
IR 区
),将环状 DNA 分子分隔成大单拷贝 (LSC 区
)和小单拷贝区 (SSC 区
)。
(5)真核细胞基因组
- 第一个完成全基因组测序的单细胞真核生物是酿酒酵母(1996 年)
全长 12,068kb,共 16 组染色体。
5885 个蛋白质编码基因和约 455 个 RNA 基因。
遗传冗余 (genetic redundancy
) 是真核基因组区别于原核基因组的显著特征。包括非编码的重复序列和多拷贝基因。 - 第一个完成全基因组测序的多细胞真核生物是秀丽隐杆线虫(1998 年)
全基因组 97Mb,6 对染色体,19,099 个基因,其中 40% 的基因产物与其他物种存在同源关系。
有遗传冗余,存在大量重复序列,且基因在染色体上的密度低。
编码大量独特的细胞间信号转导蛋白,这是多细胞生物基因组的一大特点。 - 另外几种模式真核生物的基因组测序
2000 年 黑腹果蝇 120Mb、拟南芥 125Mb
2002 年 小鼠 2.5Gb
至 2010 年 8 月,全球已发表 1350 个物种的全基因组序列。包括 90 种古细菌、1127 种细菌和 133 种真核生物
6.2 人类基因组计划
人类基因组计划的进程
-
HGP 启动
人类基因组的四张图(遗传图谱、物理图谱、基因图谱、序列图谱)。
六种模式生物基因组的测序(大肠杆菌、酵母、线虫。果蝇、拟南芥和小鼠)。