【生物信息学学习】生物信息学学什么？

最新推荐文章于 2024-10-19 16:02:10 发布

Ginno

最新推荐文章于 2024-10-19 16:02:10 发布

阅读量411

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/weixin_45685859/article/details/132781089

版权

本文详细介绍了生物信息学的入门课程，包括转录组分析流程、测序技术发展（如Sanger和Illumina/PacBio）、数据处理工具（如Linux、Python和R）以及学习路径。还探讨了测序原理、Fastq数据格式和PacBio技术。

摘要由CSDN通过智能技术生成

生物信息学实验要做什么？

转录组学：研究RNA表达
基因组：构建一个物种的基因组
比较基因组：物种之间的比较
重测序与群体遗传
R语言与生物信息绘图

生物信息学包含：
转录组、基因组、重测序等等等

一、入门：转录组分析

为什么学习转录组分析？
答：简单且易于理解

DNA-RNA-蛋白

1. 转录组分析流程

标准分析
标准分析中需要对测序数据进行处理，数据量大多上百G，因此普通的电脑难以进行处理。多租借服务器或构件Linux进行处理。
表达矩阵
对数据进行初步分析后可以得到表达矩阵，该矩阵的数据量不大，大多只有几M的大小。
个性化分析
前两步的数据均采用标准化的方式进行，而个性化分析多根据自身需求，采取R语言进行数据挖掘，最终得到一个统计表格。

2. Linux vs Python vs R

R语言：主要适用于数据的可视化与数据绘图，其最大优势是贴合生物信息学的需求。
Bioconductor：R语言社区，可以下载插件进行使用。
Python：在机器学习方面更强。

3. 学习计划

第一天：测序原理学习
第二天：Linux基础
第三天：生物信息软件安装
第四天：测序实验入门
第五天：转录组基本原理与方案设计
第六天：数据预处理
第七天：将测序数据对比到参考基因组
第八天：表达定量与标准化
第九天：功能注释与整理基因信息表
第十天：R语言基础
第十一天：Tidyverse
第十二天：样本相关性分析、聚类分析、主程序分析
第十三天：差异表达分析
第十四天：差异基因的富集分析

二、测序原理

1. 测序技术发展时间线

1970年代：人类基因组计划启动，测序技术仍处于起步阶段，只能测定数百个碱基。

1980年代：Sanger测序法被广泛使用，可以测定数千个碱基序列，但仍需要大量的试剂和手工操作。

1990年代：自动测序仪出现，大大提高了测序效率和准确性。

2000年代：大规模并行测序技术的出现，如Illumina测序，使得测序速度和覆盖面积大大提高，成本大幅降低。

2010年代：单分子测序技术的出现，如PacBio测序和Oxford Nanopore测序，实现了实时监测和长读长测序，为基因组学和微生物学等领域的研究提供了强有力的工具。

2. illmina测序原理：边合成边测序，类似于PCR

illmina存在的问题：

如何区分不同碱基？答：对dNTP进行荧光标记
荧光太微弱怎么办？答：桥式PCR扩增成cluster，同时合成
合成太快来不及识别？答：末段终止法，暂停合成

测序步骤：
1、DNA通过超声波等方式进行随机打断
2、固定长度DNA进行选择，在载玻片的接头上进行桥式PCR连接
(如何选择固定长度？答：切胶回收)

3、合成完变为双链，每个模版链打开变成新桥
4、形成DNA簇（方阵），切割、保留同一顺序方向的DNA链
5、每合成一个碱基叫一个cycle，每次进行检测

相关概念：
鸟枪法：测序是随机抽样的过程，需要增加测序的深度。测序时并不知道如何测序，每个基因组的位置均被覆盖多次（例：人的基因组3G，可能需要30G来进行测序，平均每一片段可能可以覆盖十次）

其上有八条lane，一条lane可以产生130G数据。
lane上的y型接头：illmina试剂盒上有不同的y型接头，上有不同barcode
不同的barcode可以在一条lane里检测多种基因数据

（1）Fastq数据格式

最为重要的数据：第二行、第四行

碱基质量体系

公式：Q=-10log10e

例子：Q30>80%的含义？公司承诺10G中有8G错误率小于1/1000

质量值为表示方便采用ASCII码表示：sanger = Q+33
用sanger的值对照ASCII表进行查询

补充概念：
Sanger是一种DNA测序技术，也称为“链终止法测序”，是由英国生物学家弗雷德里克·桑格（Frederick Sanger）在1970年发明的。这种技术通过使用不同大小的DNA段和DNA聚合酶来合成DNA链，同时在合成过程中添加由四个不同荧光染料标记的特殊核苷酸，当DNA链合成结束时，就会形成一系列不同长度的DNA片段，这些片段可以通过电泳分离并读取其中的荧光基团，从而确定其序列。Sanger技术是DNA测序领域的重要里程碑，为许多生物学和医学研究提供了基础和方法

（2）名词解释

Read：DNA片段双模端测序中，测出来的一个序列叫一个Read
Read length：测出的序列长度

双模端测序：
双模端测序是一种基于Illumina（意为"照亮"）测序技术的高通量测序方法。它使用两个不同的寡核苷酸适配物来同时测序DNA或RNA的两端。这种方法可以提供两个方向的序列信息，从而在基因组或转录组的拼接、注释和分析中提供更全面的信息。
在双模端测序中，DNA或RNA样本首先被随机段切割成小片段，然后被连接到两个不同的适配物上。这两个适配物包含不同的序列，以便区分两端的序列信息。接着，这些适配物会被PCR扩增，生成大量的复制品。最终，这些片段会被连续地读取，生成两端的序列信息。
双模端测序能够减少拼接时的歧义和增加转录本的可靠性，但也会增加数据量和测序成本。因此，研究人员需要权衡测序深度和实验成本，以选择适当的测序策略。