全文共1492字,预计阅读时间5分钟。
从今天开始,小张会把上学期学习的生物信息学相关内容的笔记整理成推文,共有九章的内容,如下:
参考书籍主要是樊龙江老师《生物信息学》第二版以及陈铭老师《生物信息学》第四版
参考网站:(内有相关资料)
http://ibi.zju.edu.cn/bioinplant/courses/bioinformatics2/zhuye.html
https://bis.zju.edu.cn/binfo/textbook/
更多的学习资源在后续笔记中会逐渐分享~
生物信息学不仅是一个技术平台,它同样需要周密的实验计划和准确的操作,同样需要丰富的想象和一瞬即逝的运气。
理解生物信息学(Bioinformatics)的定义、主要研究内容与研究方法
定义:生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
主要研究内容:
生物信息学应包括三个主要部分
- 新算法和统计学方法研究
- 各类数据的分析和解释
- 研制有效利用和管理数据的新工具
研究内容围绕中心法则展开:DNA、RNA、蛋白质以及由它们衍生出来的组学研究,以及生物分子、细胞、个体、群体等不同层次的复杂网络、复杂过程、复杂现象。
- 生物学数据的收集、存储、管理与提供
- 基因组序列信息的提取和分析
- 生物大分子结构模拟和药物设计
- 分子进化与比较基因组学
- 各类组学数据分析与利用
生物信息学与传统生物学的关系
研究方法:
-
基于数据挖掘(知识发现)的方法
从大量的实验数据中提取隐藏的模式,并形成假设。
-
基于模拟分析的方法
用计算机实验测试假设,提供可通过体外和体内研究进行测试的预测。
了解生物信息学发展过程中的里程碑事件和重要科学家
发展历史
-
萌芽期(20世纪60-70年代):以Dayhoff替换矩阵和Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列联配。它们的出现,代表了生物信息学的诞生(虽然“生物信息学”一词很晚才出现) ,以后的发展基本是在这两项内容上的不断完善。
-
形成期(20世纪80年代):以分子数据库和FASTA等相似性搜索程序为代表。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位
-
基因组测序时代(20世纪90年代-2005):以模式基因组测序(鸟枪法测序)与分析方法(BLAST)为代表
-
高通量测序时代(2005-):以第二和三代测序技术和基因组重测序及其分析方法为代表
重要科学家
- Margaret Dayhoff:分子数据库、氨基酸替代矩阵
- Michael Waterman:Smith-Waterman算法、Lander-Waterman曲线
- David Sankoff:RNA二级结构、基因组重排、进化、系统发育
理解“技术进步决定生物信息学研究热点”的理念
你认为生物信息学的下一波研究热点是什么?可能由什么技术触发?
- 深度学习在生物信息领域的应用
- 单细胞组学
- 空间组学
人类基因组计划(HGP)
人类基因组计划(HGP)与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,是人类科学史上的又一个伟大工程,被誉为生命科学的“登月计划”。
最初目标
通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。
终极目标
- 阐明人类基因组全部DNA序列;
- 识别基因;建立储存这些信息的数据库;
- 开发数据分析工具;
- 研究HGP实施所带来的伦理、法律和社会问题。
在人类基因组计划中,有一个有趣的故事:一条“鲶鱼”加速了HGP(Craig Venter)
ENCODE project
继人类基因组计划之后,生命科学最大的国际合作计划“ENCODE (Encyclopedia of DNA Elements ,DNA元件百科全书)”,2003年启动
图片来源:https://www.encodeproject.org
测序知识
熟悉sanger、Illumina测序基本原理;了解华大DNBSeq等二代测序的基本原理
熟悉三代测序(PacBio SMRT和Oxford Nanopore)的基本原理
比较一、二、三代测序的优缺点和各自应用领域
第二代测序技术的共同点
- 将目标DNA剪切为小片段
- 单分子独立扩增
- 每次只复制一个碱基(A,C,T,G)并检测信号
- 高分辨率的成像系统
第三代测序技术的特点
- 长读长
- 单分子测序,无需扩增
- 可检测碱基修饰
- 连续测序,速度快(取决于所用聚合酶的速度或通过纳米孔的速度)
- 便携(Nanopore)
- 错误率较高(近年有突破,部分产品测序准确率已>99%)
- 存在系统错误,对同聚物(如AAAAAAA)识别有问题
- 通量比二代测序低,成本比二代测序高,尚不适合定量分析
其余更加详细的内容,可关注小张的公众号:小张的生信世界