【生物信息学学习】生物信息学学什么?

本文详细介绍了生物信息学的入门课程,包括转录组分析流程、测序技术发展(如Sanger和Illumina/PacBio)、数据处理工具(如Linux、Python和R)以及学习路径。还探讨了测序原理、Fastq数据格式和PacBio技术。
摘要由CSDN通过智能技术生成

生物信息学实验要做什么?

转录组学:研究RNA表达
基因组:构建一个物种的基因组
比较基因组:物种之间的比较
重测序与群体遗传
R语言与生物信息绘图

生物信息学包含:
转录组、基因组、重测序等等等

一、入门:转录组分析

为什么学习转录组分析?
答:简单且易于理解

DNA-RNA-蛋白

1. 转录组分析流程

  1. 标准分析
    标准分析中需要对测序数据进行处理,数据量大多上百G,因此普通的电脑难以进行处理。多租借服务器或构件Linux进行处理。
  2. 表达矩阵
    对数据进行初步分析后可以得到表达矩阵,该矩阵的数据量不大,大多只有几M的大小。
  3. 个性化分析
    前两步的数据均采用标准化的方式进行,而个性化分析多根据自身需求,采取R语言进行数据挖掘,最终得到一个统计表格。

2. Linux vs Python vs R

R语言:主要适用于数据的可视化与数据绘图,其最大优势是贴合生物信息学的需求。
Bioconductor:R语言社区,可以下载插件进行使用。
Python:在机器学习方面更强。

3. 学习计划

  1. 第一天:测序原理学习
  2. 第二天:Linux基础
  3. 第三天:生物信息软件安装
  4. 第四天:测序实验入门
  5. 第五天:转录组基本原理与方案设计
  6. 第六天:数据预处理
  7. 第七天:将测序数据对比到参考基因组
  8. 第八天:表达定量与标准化
  9. 第九天:功能注释与整理基因信息表
  10. 第十天:R语言基础
  11. 第十一天:Tidyverse
  12. 第十二天:样本相关性分析、聚类分析、主程序分析
  13. 第十三天:差异表达分析
  14. 第十四天:差异基因的富集分析

二、测序原理

1. 测序技术发展时间线

1970年代:人类基因组计划启动,测序技术仍处于起步阶段,只能测定数百个碱基。

1980年代:Sanger测序法被广泛使用,可以测定数千个碱基序列,但仍需要大量的试剂和手工操作。

1990年代:自动测序仪出现,大大提高了测序效率和准确性。

2000年代:大规模并行测序技术的出现,如Illumina测序,使得测序速度和覆盖面积大大提高,成本大幅降低。

2010年代:单分子测序技术的出现,如PacBio测序和Oxford Nanopore测序,实现了实时监测和长读长测序,为基因组学和微生物学等领域的研究提供了强有力的工具。

2. illmina测序原理:边合成边测序,类似于PCR

illmina存在的问题:

  1. 如何区分不同碱基?答:对dNTP进行荧光标记
  2. 荧光太微弱怎么办?答:桥式PCR扩增成cluster,同时合成
  3. 合成太快来不及识别?答:末段终止法,暂停合成

测序步骤:
1、DNA通过超声波等方式进行随机打断
2、固定长度DNA进行选择,在载玻片的接头上进行桥式PCR连接
(如何选择固定长度?答:切胶回收)

3、合成完变为双链,每个模版链打开变成新桥
4、形成DNA簇(方阵),切割、保留同一顺序方向的DNA链
5、每合成一个碱基叫一个cycle,每次进行检测

相关概念:
鸟枪法:测序是随机抽样的过程,需要增加测序的深度。测序时并不知道如何测序,每个基因组的位置均被覆盖多次(例:人的基因组3G,可能需要30G来进行测序,平均每一片段可能可以覆盖十次)

其上有八条lane,一条lane可以产生130G数据。
lane上的y型接头:illmina试剂盒上有不同的y型接头,上有不同barcode
不同的barcode可以在一条lane里检测多种基因数据

(1)Fastq数据格式

最为重要的数据:第二行、第四行

碱基质量体系

公式:Q=-10log10e

例子:Q30>80%的含义?公司承诺10G中有8G错误率小于1/1000

质量值为表示方便采用ASCII码表示:sanger = Q+33
用sanger的值对照ASCII表进行查询

补充概念:
Sanger是一种DNA测序技术,也称为“链终止法测序”,是由英国生物学家弗雷德里克·桑格(Frederick Sanger)在1970年发明的。这种技术通过使用不同大小的DNA段和DNA聚合酶来合成DNA链,同时在合成过程中添加由四个不同荧光染料标记的特殊核苷酸,当DNA链合成结束时,就会形成一系列不同长度的DNA片段,这些片段可以通过电泳分离并读取其中的荧光基团,从而确定其序列。Sanger技术是DNA测序领域的重要里程碑,为许多生物学和医学研究提供了基础和方法

(2)名词解释

  1. Read:DNA片段双模端测序中,测出来的一个序列叫一个Read
  2. Read length:测出的序列长度

双模端测序:
双模端测序是一种基于Illumina(意为"照亮")测序技术的高通量测序方法。它使用两个不同的寡核苷酸适配物来同时测序DNA或RNA的两端。这种方法可以提供两个方向的序列信息,从而在基因组或转录组的拼接、注释和分析中提供更全面的信息。
在双模端测序中,DNA或RNA样本首先被随机段切割成小片段,然后被连接到两个不同的适配物上。这两个适配物包含不同的序列,以便区分两端的序列信息。接着,这些适配物会被PCR扩增,生成大量的复制品。最终,这些片段会被连续地读取,生成两端的序列信息。
双模端测序能够减少拼接时的歧义和增加转录本的可靠性,但也会增加数据量和测序成本。因此,研究人员需要权衡测序深度和实验成本,以选择适当的测序策略。

  1. Insert size:DNA片段的长度
  2. Single end/ paired-end:单模端测序/双模端测序(多用于凑lane需求)
  3. Depth(测序深度):染色体的某一个位置被多少DNA片段覆盖
  4. Coverage(覆盖度):测试多次后,有百分之多少的基因被覆盖
  5. Tile / lane / flowcell :虚拟概念/波片上的栅格/核心波片
  6. Adapter:接头
  7. Index/barcode:六个序列用于区分不同样本
  8. base calling:用照片翻译成ATCG碱基

3. PacBio测序原理:边合成边测序(一般不用于转录组测序)

核心技术:零模波导孔(ZMW)。底座射出激光,若不合成,则荧光信号弱;若合成,则强烈被检荧光信号。

PacBio解决边合成边测序难点的方法:
在小孔中合成,减少背景噪音(illumine因为在空旷场所,所以背景噪音大)

PicBio两种模式

  1. PacBio CLR(多次在哑铃型接头上结合,多圈结合)
    PicBio在两端添加哑铃型接头(illumina是y型接头),用于多次测试基因片段,以提高准确率。
  2. PacBio HiFi
    更先进、准确性更高

1k = 1000 bp
1M = 10^6 bp
1G = 10^9 bp
1T = 10^12 bp

三、测序技术运用

  1. 序列的拼接(高通量测序技术,降低成本)
  2. 重测序(不必测过长的基因)
  3. 丰度估计:拷贝数变异、三体综合征等
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值