生物信息学快速入门
生物信息学实验要做什么?
转录组学:研究RNA表达
基因组:构建一个物种的基因组
比较基因组:物种之间的比较
重测序与群体遗传
R语言与生物信息绘图
生物信息学包含:
转录组、基因组、重测序等等等
一、入门:转录组分析
为什么学习转录组分析?
答:简单且易于理解
DNA-RNA-蛋白
1. 转录组分析流程
- 标准分析
标准分析中需要对测序数据进行处理,数据量大多上百G,因此普通的电脑难以进行处理。多租借服务器或构件Linux进行处理。 - 表达矩阵
对数据进行初步分析后可以得到表达矩阵,该矩阵的数据量不大,大多只有几M的大小。 - 个性化分析
前两步的数据均采用标准化的方式进行,而个性化分析多根据自身需求,采取R语言进行数据挖掘,最终得到一个统计表格。
2. Linux vs Python vs R
R语言:主要适用于数据的可视化与数据绘图,其最大优势是贴合生物信息学的需求。
Bioconductor:R语言社区,可以下载插件进行使用。
Python:在机器学习方面更强。
3. 学习计划
- 第一天:测序原理学习
- 第二天:Linux基础
- 第三天:生物信息软件安装
- 第四天:测序实验入门
- 第五天:转录组基本原理与方案设计
- 第六天:数据预处理
- 第七天:将测序数据对比到参考基因组
- 第八天:表达定量与标准化
- 第九天:功能注释与整理基因信息表
- 第十天:R语言基础
- 第十一天:Tidyverse
- 第十二天:样本相关性分析、聚类分析、主程序分析
- 第十三天:差异表达分析
- 第十四天:差异基因的富集分析
二、测序原理
1. 测序技术发展时间线
1970年代:人类基因组计划启动,测序技术仍处于起步阶段,只能测定数百个碱基。
1980年代:Sanger测序法被广泛使用,可以测定数千个碱基序列,但仍需要大量的试剂和手工操作。
1990年代:自动测序仪出现,大大提高了测序效率和准确性。
2000年代:大规模并行测序技术的出现,如Illumina测序,使得测序速度和覆盖面积大大提高,成本大幅降低。
2010年代:单分子测序技术的出现,如PacBio测序和Oxford Nanopore测序,实现了实时监测和长读长测序,为基因组学和微生物学等领域的研究提供了强有力的工具。
2. illmina测序原理:边合成边测序,类似于PCR
illmina存在的问题:
- 如何区分不同碱基?答:对dNTP进行荧光标记
- 荧光太微弱怎么办?答:桥式PCR扩增成cluster,同时合成
- 合成太快来不及识别?答:末段终止法,暂停合成
测序步骤:
1、DNA通过超声波等方式进行随机打断
2、固定长度DNA进行选择,在载玻片的接头上进行桥式PCR连接
(如何选择固定长度?答:切胶回收)
3、合成完变为双链,每个模版链打开变成新桥
4、形成DNA簇(方阵),切割、保留同一顺序方向的DNA链
5、每合成一个碱基叫一个cycle,每次进行检测
相关概念:
鸟枪法:测序是随机抽样的过程,需要增加测序的深度。测序时并不知道如何测序,每个基因组的位置均被覆盖多次(例:人的基因组3G,可能需要30G来进行测序,平均每一片段可能可以覆盖十次)
其上有八条lane,一条lane可以产生130G数据。
lane上的y型接头:illmina试剂盒上有不同的y型接头,上有不同barcode
不同的barcode可以在一条lane里检测多种基因数据
(1)Fastq数据格式
最为重要的数据:第二行、第四行
碱基质量体系
公式:Q=-10log10e
例子:Q30>80%的含义?公司承诺10G中有8G错误率小于1/1000
质量值为表示方便采用ASCII码表示:sanger = Q+33
用sanger的值对照ASCII表进行查询
补充概念:
Sanger是一种DNA测序技术,也称为“链终止法测序”,是由英国生物学家弗雷德里克·桑格(Frederick Sanger)在1970年发明的。这种技术通过使用不同大小的DNA段和DNA聚合酶来合成DNA链,同时在合成过程中添加由四个不同荧光染料标记的特殊核苷酸,当DNA链合成结束时,就会形成一系列不同长度的DNA片段,这些片段可以通过电泳分离并读取其中的荧光基团,从而确定其序列。Sanger技术是DNA测序领域的重要里程碑,为许多生物学和医学研究提供了基础和方法
(2)名词解释
- Read:DNA片段双模端测序中,测出来的一个序列叫一个Read
- Read length:测出的序列长度
双模端测序:
双模端测序是一种基于Illumina(意为"照亮")测序技术的高通量测序方法。它使用两个不同的寡核苷酸适配物来同时测序DNA或RNA的两端。这种方法可以提供两个方向的序列信息,从而在基因组或转录组的拼接、注释和分析中提供更全面的信息。
在双模端测序中,DNA或RNA样本首先被随机段切割成小片段,然后被连接到两个不同的适配物上。这两个适配物包含不同的序列,以便区分两端的序列信息。接着,这些适配物会被PCR扩增,生成大量的复制品。最终,这些片段会被连续地读取,生成两端的序列信息。
双模端测序能够减少拼接时的歧义和增加转录本的可靠性,但也会增加数据量和测序成本。因此,研究人员需要权衡测序深度和实验成本,以选择适当的测序策略。
- Insert size:DNA片段的长度
- Single end/ paired-end:单模端测序/双模端测序(多用于凑lane需求)
- Depth(测序深度):染色体的某一个位置被多少DNA片段覆盖
- Coverage(覆盖度):测试多次后,有百分之多少的基因被覆盖
- Tile / lane / flowcell :虚拟概念/波片上的栅格/核心波片
- Adapter:接头
- Index/barcode:六个序列用于区分不同样本
- base calling:用照片翻译成ATCG碱基
3. PacBio测序原理:边合成边测序(一般不用于转录组测序)
核心技术:零模波导孔(ZMW)。底座射出激光,若不合成,则荧光信号弱;若合成,则强烈被检荧光信号。
PacBio解决边合成边测序难点的方法:
在小孔中合成,减少背景噪音(illumine因为在空旷场所,所以背景噪音大)
PicBio两种模式
- PacBio CLR(多次在哑铃型接头上结合,多圈结合)
PicBio在两端添加哑铃型接头(illumina是y型接头),用于多次测试基因片段,以提高准确率。 - PacBio HiFi
更先进、准确性更高
1k = 1000 bp
1M = 10^6 bp
1G = 10^9 bp
1T = 10^12 bp
三、测序技术运用
- 序列的拼接(高通量测序技术,降低成本)
- 重测序(不必测过长的基因)
- 丰度估计:拷贝数变异、三体综合征等