2020.9.2丨遗传图谱基础介绍

穆易青

已于 2022-03-24 11:45:58 修改

阅读量2.3w

点赞数 14

分类专栏：遗传图谱心得文章标签： python

于 2020-09-02 10:17:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangl7/article/details/108356969

版权

心得同时被 2 个专栏收录

51 篇文章

订阅专栏

3 篇文章

订阅专栏

遗传图谱简介
- 遗传学三大定律
  - 1、分离定律（1对染色体上1对基因或者标记）控制同一性状的遗传因子成对存在，不相融合；在减数分裂形成配子时，成对的遗传因子发生分离，分离后的遗传因子分别进入不同的配子中，随配子遗传给后代的现象。
  - 2、自由组合定律（2对染色体上2对基因）
    - 子一代产生配子时，在等位基因分离的同时，非同源染色体上的2个或者多个基因表现为自由组合。
    - 其实质是针对2对染色体上基因，一对染色体上的等位基因与另一对染色体上的等位基因的分离或组合是彼此间互不干扰的，各自独立地分配到配子中去。
    - 自由组合的结果是产生了丰富的遗传表型。
  - 3、连锁与互换定律（同一条染色体上2对基因）
    - 生殖细胞形成过程中，位于同一染色体上的基因是连锁在一起，作为一个单位进行传递，称为连锁律。
    - 在生殖细胞形成时，一对同源染色体上的不同对等位基因之间可以发生交换，称为交换律或互换律。
    - 同一条染色体上的2个基因或者标记位置越接近，连锁程度越紧密，从而交换越难发生。
- DNA分子标记
  - 能够反映生物样品特性的核酸序列即为DNA分子标记。 DNA分子标记的多态性主要通过2个方面体现，一是DNA序列的长度差异，二是DNA碱基类型差异
- 遗传图谱介绍
  - 概念
    - 遗传图谱（genetic map）又称遗传连锁图谱，是指依据遗传标记（主要是DNA 标记）在染色体上的重组率，确定各个标记在连锁群上的距离和顺序，绘制而成的具有标记名称和遗传距离的图谱。
  - 图谱构建的理论基础
    - 理论基础是染色体的连锁与重组。同源染色体非姐妹染色单体重组配子重组型配子形成过程
      - a. 基因的连锁是位于同一染色体上的基因在遗传过程中一般倾向于维系在一起。
      - b. 基因的重组是通过一对同源染色体的两个非姐妹染色单体之间的交换来实现的。
      - c. 重组发生时期为减数分裂生成配子时期
      - d. 重组的发生可以打破基因间的连锁
    - 重组的衡量方式
      - 重组率=重组型配子数目/(亲本型配子数目+重组型配子数目)
      - 主要性质
        a. 用r表示，重组型配子出现的最大可能比例是50%，所以两个基因间的重组率最大值为0.5；
        b. r的高低取决于交换的频率，而两对基因之间的交换频率取决于它们之间的直线距离；
        c. r的变化范围一般在0~0.5之间，0表示完全连锁，0.5表示不连锁，2个基因完全独立遗传，自由重组；
        d. 重组率可用来表示基因间的遗传图距（cM），1cM相当于1%的重组率。
  - 构建流程
    - 流程图
    - 群体构建
      - 群体的构建是作图成功和高效的关键，建立作图群体需要考虑3个因素
        
        亲本的选配
        
        分离群体类型的选择
        群体大小的确定
      - 亲本选配原则
        a. 目标性状有显著差异的个体；
        b. 考虑亲本间的DNA多态性(亲缘关系越远，多态性越高；杂交物种多态性高，自交物种多态性低)；
        c. 对于作物、蔬菜（自花授粉），选择亲本时应尽量选用纯度高的材料，并进一步通过自交进行纯化；对于林木、花卉、水产（异交受精），选择亲本时应选用杂合度高的材料；
        d. 考虑杂交后代的可育性（亲本间亲缘关系越远，杂种后代结实率和育性越差）。
      - 群体类型（初级定位群体）
        a. 按遗传稳定性划分：
        暂时性分离群体，如F1、F2、F3、F4、BC等，这类群体中分离单位是个体，一经自交或近交，其遗传组成就会发生变化，无法永久使用。
        永久性分离群体，如RIL、DH等，这类群体中分离单位是株系 (或者叫株行)，不同株系间存在基因型的差异，而株系内个体间的基因型是相同且纯和的，自交不分离。这类群体通过自交或近交繁殖后，遗传组成不会改变，可永久使用。
        b. 按物种划分:
        作物、蔬菜类： F2、RIL、BC、DH等
        果树、林木、花卉、水产类：F1、BC等
        F2群体
        由2个不同基因型的纯合亲本杂交得到的F1代，再自交1代得到的群体F2群体易于配置，需要时间短，所提供的遗传信息最为丰富。
        优点
        建立F2群体容易
        每个位点有多种基因型，可以用来分析加性、显性等遗传效应
        缺点
        存在杂合基因型：对于显性标记，将无法识别显性纯合基因型和杂合基因型，降低作图的精度。
        不易长期保存，有性繁殖一代后，F2群体的遗传结构就会发生变化。
        BC群体
        F1子代与双亲之一进行回交（杂交1代或多代）得到的群体，对于自交不亲和材料多采用回交的形式配置群体。
        优点
        BC1群体的作图效率高：BC1群体的每个位点只表现两种基因型，反映了F1代配子的分离比例。
        回交亲本做父本或者母本，可检验雌雄配子在基因间的重组率上是否存在差异。
        随着回交代数的增加，背景越接近轮回亲本，是构建次级定位群体的经典方式。
        缺点
        暂时分离群体，仅能使用一次。
        容易出现假杂种，产生作图偏差。
        难以进行人工杂交的植物建立BC1群体较困难。
        RIL群体
        由F1代，经多代（6代以上）自交后得到的群体，一般是通过单粒传方法得到RIL。每个line（系）内个体基因型相同，line之间基因型不同，并且每个个体的几乎所有位点都处于纯合状态。
        优点
        由于RILs在家系变成纯合前经历了多次减数分裂，重组程度高
        RIL群体构建的图谱比F2的有着更高的解析度。
        可长期反复试验：用于构建分子标记连锁图，QTL定位研究。
        缺点
        构建RIL群体要经过田间几代的选择和鉴定，费时费力。如果仅是为了构建连锁图的话，选用RIL群体是不明智的。
        异花授粉植物由于存在自交衰退和不结实现象，建立RIL群体也比较困难。
        DH群体
        收集F1子代花粉进行离体培养，得到单倍体幼苗后进行秋水仙素加倍得到基因型纯合群体，通过构建DH群体，可以快速得到一个稳定遗传的纯合群体。每个line的基因型为纯合，不同line之间存在差异
        优点
        构建DH群体时间短：直接从F1花粉经培养产生
        作图效率高：DH群体的遗传结构直接反映了F1配子中基因的分离和重组。
        由于DH群体跟RIL群体一样，可反复使用，重复试验，所以可以多次定位1个性状。
        缺点
        重组信息量相对较少：重组只来自形成花粉时的一次减数分裂。
        花药培养难：有些植物的花药培养非常困难，就无法通过花培来建立DH群体。
        花药培养与基因型相关：培养过程会对不同基因型的花粉产生选择效应，从而破坏 DH群体的遗传结构，造成较严重的偏分离现象，影响遗传作图的准确性。
        F1群体
        两个亲本杂交产生的子代，得到子代个体即为F1群体。但是纯合亲本杂交的F1，由于所有F1子代基因型都相同，所以不能用来做图谱。此处说的F1群体是由杂合度高的亲本构建的。
        优点
        构建F1群体时间短，仅需一代杂交
        林木花卉F1群体，可多年种植，重复试验测定表型，所以可以多次定位1个性状。
        可以单独分析父本或者母本的基因组重组情况
        缺点
        只发生一次减数分裂，重组事件少。
        杂合度较高，分析较为复杂。
      - 次级群体
        近等基因系（Near Isogenic Lines，NIL）
        染色体片段代换系（Chromosome Segment Substitution Lines, CSSL）
        剩余杂合系（Residual Heterozygous Line，RHL）
        NAM（Nested Association Mapping population）群体
        MAGIC（Multiparent Advanced Generation Inter-Cross）群体
      - 群体大小的确定
        遗传图谱的分辨率和精度，很大程度上取决于群体大小，群体越大，作图精度越高。
        但群体太大，又会增加实验工作量，增加费用，因此需要确定合适的群体大小。
        在分子标记连锁图谱构建中，不同群体类型所需的群体大小不一样
        根据文献报道，群体大小在150个以上较优。
    - 标记开发
      - 通过实验手段或者测序方式得到样品上序列特征信息的过程即为标记开发
      - 在遗传群体分析中，开发标记的目的是在全基因组范围内检测重组发生的位置和频率，并且将标记分型与性状信息进行关联，得到控制性状变化的基因组区域。
      - 标记分类
        传统标记
        RAPD、AFLP、SSR等数目少，费时费力，单个标记费用高，准确性差、稳定性差
        高通量标记
        SNP、SLAF 高密度、快速，便捷单个标记费用低、准确性高、稳定性高
      - 标记多态性
        同一个分子标记，在不同个体间存在2个或以上的不同变异的标记为多态
        遗传图谱分析，需要对双亲和所有子代进行标记开发，利用双亲间存在多态性的标记作图
      - SLAF(Specific-Locus Amplified Fragment Sequencing)测序
        SLAF-seq是百迈客自主研发的新兴的简化基因组测序技术，该方法灵活、通量高、序列一致性高，是简化测序的首选方法。
    - 标记分型
      - 纯合亲本群体（如F2 ，RIL ，DH）： aa ×bb 型
      - 杂合亲本群体（如F1 ）：ab ×cd ；ef ×eg ； hk ×hk ；lm ×ll ； nn ×np ；cc ×ab ；ab ×cc
      - 标记的有效多态性：已分型好的能够用于图谱构建的标记占开发标记总数的百分比，如在F2 群体中，aaxbb类型的标记为9,000，亲本及子代总共开发的标记数为200,000，有限多态性为4.5% 。
        分型表格
    - 构建遗传图谱
      - Step1 标记分群
        理论上，基因组上每一条染色体对应一个连锁群，一条染色体上标记会构建到一条连锁群上。
        重组率是衡量标记间连锁程度的指标，但是人们是无法得到每个世代中重组型配子的比例，只能通过检测得到的重组型个体的比例来间接推到标记间实际重组率。
        最大似然法进行重组率的估计可以解决这个问题，它是以满足估计值在观察结果中出现的概率最大为条件。
        然后用重组率显著性的似然比检验来推断连锁是否存在，即假设两座位间存在连锁，则r<0.5；不连锁，r=0.5.
        LOD值反映了重组率估值的可靠程度，并作为两两标记连锁是否真实存在的一种判断尺度。 LOD=log10L(r)/L(0.5)
        要确定两对基因存在连锁，一般要求LOD>3，即2个标记间连锁的概率是不连锁的1000倍；否定两对基因连锁，要求似然比小于100：1，即LOD<2。
        标记分群是根据两两标记间LOD值进行的，在我们实际分析过程，一般取 5＜LOD＜20，也即同一连锁群内的标记间的LOD介于5-20之间。
      - Step2 标记排序
        旅行商问题：已知n个城市之间的直线距离, 有一个旅行商需要遍访这n个城市, 并且每个城市只能访问一次, 最后返回出发城市, 这就是组合数学中的旅行商问题 (traveling salesman problem, TSP).
        连锁图谱构建过程中, 排序的目的是寻求图距最短的一个标记顺序，连锁图谱构建与TSP问题求解之间存在极大的相似性. 成对标记间的重组率或图距可看作TSP问题中两两城市间的路程，但两者之间又有一定区别, 遗传距离的估计受群体类型, 群体大小, 标记缺失等诸多因素的影响, 估计值有一定误差. 而TSP中的物理距离一般没有误差, 或者误差很小.
        通过最近邻居算法（也称为贪婪算法）构造一个起始序列，此时的序列并非为徒具最短的顺序，然后通过序列改进的Two-opt算法和其他图谱调整算法对排序进行调整，得到最短的标记排序。
      - Step3 作图函数
        由于遗传干涉的存在, 重组率一般不满足可加性. 而距离一般是可加的, 对于遗传图谱来说, 希望图谱上的距离也满足可加性
        根据标记间的重组率，将重组率转化为图距，图矩的单位为摩尔根 (用M表示)或厘摩 (用cM表示), 1M=100cM.
        图距m是交换率r的函数, 即 , 称f为作图函数. 交换率r=0.01的两个位点间的图距大约为1cM
        *Morgan作图函数
        由Morgan在1928年和Sturtevant (1931) 提出, 它将重组率的百分数作为图距, 即m=100×r, 单位为cM. 对于紧邻的两个区间, 可以采用求和的办法计算图距. 例如顺序排列的3个位点M1 -M2 -M3 , M1 -M2间的重组率为0.02, 即图距为2cM; M2 -M3间的重组率为0.01, 即图距为1cM.
        根据Morgan作图函数, M1 -M3间的图距为3cM. Morgan作图函数没有考虑大标记区间中存在多重交换的可能, 且假定干涉系数 δ=1. 事实上, 一个较长的染色体区间上可能存在双交换甚至多次交换, 使得重组率不具有线性可加性的. 因此, Morgan作图函数不能应用于比较长的染色体区段
        Haldane作图函数（常用）
        对于顺序排列的3个位点M1 -M2 -M3 , 在没有干涉的情况下, 即假定M1 -M2间的交换和M2 -M3间的交换独立发生, 并考虑到一个区间可以发生多次交换, Haldane (1919) 给出下面的作图函数。
        其中, m的单位为M. 实际中, m常用cM为单位,
        Kosambi作图函数（常用）
        考虑到遗传干涉的存在，提出干涉系数应是重组率的函数. 即, 染色体区间越短, 干涉的程度越大; 染色体区间越长, 干涉系数越小. 由此建立的作图函数为
        其中, m的单位为M. 实际中, m常用cM为单位, 这时,
        纯合物种（群体类型F2、F3、F4、BC、DH、RIL）
        只做一张图谱，也即每条染色体对应一个连锁群，该图谱反映的是双亲的重组情况
        高杂合物种（群体类型F1）
        作图采用拟测交原理
        构建3张图：雌性图、雄性图、中性图，也即每条染色体对应三个连锁群。
        先构建单性图（雌性图、雄性图），然后通过单性图间共有标记整合成中性图，单性图反映的是父母本分别的重组情况。
        雄性图：lmxll，abxcc，abxcd，efxeg，hkxhk；雌性图：nnxnp，ccxab， abxcd，efxeg，hkxhk
        高杂合物种可通过构建半同胞群体，只构建一张单性图谱，如果单一亲本为父本，则构建雄性图，如果单一亲本为母本，则构建雌性图。
    - 图谱质量评估
      - 图谱基本信息评估
      - 偏分离标记信息统计
      - 上图标记完整度统计
      - 标记排序准确性评估
  - 主要应用
    - 基因/QTL定位
      - 概念
        QTL，数量性状位点，指包含调控性状的基因的染色体区段，而通过分析整个染色体的DNA标记和数量性状表型值的关系，将QTL逐一定位到连锁群的相应位置（遗传距离，cM），并估计QTL遗传效应的过程即为QTL定位。
      - QTL定位
        性状分类
        质量形状：指同一个性状的不同表现型之间不存在连续性的数量变化，而呈现质的中断性变化，一般为单基因、双基因控制。
        特点
        a.个体间差异是不连续的
        b.不容易受环境影响
        c.受一对或少数几对主效基因控制
        d.在某些世代有特定的分离比
        数量性状：指在一个性状的不同表现型在群体内表现为连续变异的性状，一般为多个微效基因共同控制。
        特点
        a.个体间差异是连续的，难以在个体间明确分组
        b.容易受环境影响
        c.受多个基因调控
        表型鉴定
        原则
        a. 表型要数值化，不能用描述性文字。
        b. 表型鉴定要准确，可通过精密仪器测量，同时安排合理的试验设计，设置重复。
        c. 表型鉴定尽量在多个环境进行，排除环境对表型的影响。
        永久性群体可以进行多环境的表型观测，通过多环境表型观测消除环境误差，同时进行多环境表型数据的定位，如RIL、DH群体。
        暂时性分离群体大多只能在单个环境使用，如F2、F3、BC等。
        大多数F1群体由于是多年生，可以在多环境下进行表型考察。
        无性繁殖的群体材料，如扦插、嫁接、组培等方式繁殖，由于基因型未发生改变，也可进行多环境表型考察。
        QTL定位过程
        a. 数据准备
        b. QTL定位
        c.常用软件
        R/qtl、MapQTL Icimapping、WinQTLcart
        定位结果
        QTL，Quantitative Trait Locus，数量性状位点，指的是控制性状的基因在基因组中的位置，QTL对应基因组上的一个区间，该区间存在控制性状变化的基因，而挖掘QTL的过程即为QTL定位。
        根据标记的LOD值曲线，超出阈值线的部分说明有QTL存在，超出部门对应的横坐标即为定位区间，单位为cM。
        阈值线的确定一般采用数据模拟的置换检验(Permutation test，PT检验)，也可通过人为的经验值确定，一般默认为3或者2.5。
        QTL定位除了给出QTL的位置信息，还有对QTL的效应值（加性、显性、上位性）、表型贡献率进行估计。
        一般认为，贡献率超过10%的QTL为主效QTL。
        QTL定位方法
        单标记法（Sing marker mapping，SM）
        是最早使用的定位方法，它是通过t 测验、方差分析、回归分析、似然比测验或最大似然估计，逐一比较每个标记不同基因型个体间表型值间的差异，如果差异显著，则说明QTL与该标记有连锁，进而估计其效应。
        单标记分析法有一个显著的优点，即不需要完整的标记连锁图，只需知道标记分型情况，因而早期的QTL定位研究多采用这种方法，但它最明显的缺点是不能确定标记的位置，现在基本不使用该方法。
        区间定位法（Interval mapping, IM）
        由于单标记方法存在很多问题，Lander 和Bostein(1989)提出了基于两个侧邻标记的区间作图法。
        该方法借助于完整的分子标记连锁图谱，计算基因组任意位置上两个相邻标记之间存在或不存在QTL的似然比的对数（LOD值），当LOD值超过某一给定的临界值时，即表明存在一个QTL。
        虽然IM方法将临近标记分型考虑其中，但其它背景位点也会对QTL定位和效应估计带来影响。
        复合区间作图法（Composite Interval Mapping, CIM）
        复合区间作图法是Zeng系统研究了多元线性回归方法(一个因变量和多个自变量间的相关关系)进行QTL作图的理论基础，进而提出把多元回归与区间作图结合起来的QTL定位方法。
        该方法中吸取了IM方法的优点，同时拟合了其它遗传标记，即在对某一特定标记区间进行检测时，将其它与QTL连锁的标记也拟合在模型中以检测背景遗传效应，从而降低了背景影响，是目前定位的主要方法
      - 染色体挂载
        基因组组装过程中，通过将测序的长、短reads进行拼接组装后得到scaffolds，一条染色体由若干条彼此没有重叠序列scaffolds 组成，而把scaffolds进行排序构成染色体的过程即为染色体挂载。
        其基本原理是通过将遗传图谱上的标记与scaffolds比对，得到两者之间共有的标记信息，而遗传图谱上标记是有顺序，并且和基因组有共线性关系，根据遗传图谱上标记顺序将scaffolds进行排列并定序，从而得到染色体级别的基因组信息。
    - 辅助基因组组装
      - 遗传图谱上的标记是有序列的，可以与scaffold上的序列进行比对，根据共线性关系，就可以将scaffold定位到相应的连锁群上（1个标记可以定位置，2个标记才可以定序）
个人总结
- 群体越大，成本越高
- SLAF-seq，测固定序列长度
- 依靠重组率标记分群
- 最大似然法、旅行商问题、置换检验等统计理论仍需要课后补充学习
- Scaffold上至少需要两个marker才能确定方向
欢迎扫码或加vx：bbplayer2021进群交流

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

穆易青 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。