Bioinfomatic
说明:生物信息学课程总结、笔记
课程链接:
https://www.icourse163.org/learn/SDU-1001907001?tid=1450236461#/learn/content?type=detail&id=1214471915&cid=1218216835
什么是生物信息学?
概念
生物信息学就是用计算机解决生物学问题
研究对象
学什么?
生物数据库
生物数据库
收集——查看——整理
生物数据库分类
常用
- PubMed:文献数据库(包含200多万生物医学文献
显示格式分为多种,选择MEDLINE格式可以查看数据库内部存储结构)
关键字[TI]:定位关键字 - 一级核苷酸数据库
NCBI(GenBank):隶属于美国国立卫生研究院(NIH)
结构:
EMBL(ENA):欧洲核苷酸序列数据集
DDBJ:日本DNA数据库
Ensemble:从染色体入手找具体的基因
JCVI(微生物宏基因组数据库) - 二级核酸数据库
- 一级蛋白质序列数据库
UniProt:http://www.uniport.org
-一级蛋白质结构数据库
PDB:Protein Data Bank
存储蛋白质氨基酸原子的3D坐标 - 二级蛋白质数据库
蛋白质一般是由一个或多个功能区域组成。这些功能区域称为结构域(domain)。在不同蛋白质结构中以不同组合的形式出现,形成蛋白质的多样性。
*pfam:蛋白质结构域家族的集合http://www.pfam.org
查找某条序列上有哪些结构域
*CATH-Gene3D:蛋白质结构域分类(使用计算机程序+人工检查)
属于同一个结构域分类的蛋白质的聚类图以及挑选出来的蛋白质的3D图
*scop2:和CATH同,更多考虑蛋白质结构的进化
序列比较(第一部分)
-
认识序列:寻找相似序列,构建进化树(相似序列意味着相似结构和相似功能)
-
序列相似性:一致性(identity)、相似性(similarity)
-
替换记分矩阵:
- DNA
- 等价矩阵(unitary matrix):相同为1,不同为0
- 转换-颠换矩阵(transition-transvehrsion matrix):转换为-1(A、G)、颠换为-5(C、T)
- blast矩阵:相同为4,不同为-5
-
蛋白质
亲缘关系较远:BLOSUM-
亲缘关系较近:PAM-
常用:BLOSUM-62
- 遗传密码子矩阵
- 疏水矩阵:疏水大
-
比较两个序列的方法:打点法
相同打点,若多对角线元素相连的子序列,则相似性高
序列自身比较可以找出序列中的重复片段
常用软件:Dotlet -
比较两个长度不同的序列的方法:序列比对法
- 定义(alignment):通过插入空格(gap)的方式,产生最大相似度得分的排列方式
- 分类
-
双序列比对
-
全局比对:用于 比较长度相似的序列
-
局部比对 :用于比对长短差异大的序列
-
-
多序列比对
-
-
一致性和相似度
(一致或相似字符的个数/全局比对长度)*100%
无论序列是否相同,都要先做双序列全局比对,然后计算 -
在线双序列比对工具
- EMBL
gap参数设置:开头和延长(根据需要设置)
- EMBL
-
blast比对
基本局部序列比对:寻找片段对O(n)
序列比对(第二部分)
多序列比对的介绍
- 确认:一个未知的序列是否在某个家族里
- 建立:系统发育树,查看物种与序列之间的关系
- 模式识别:通过多序列比对找到相对保守的片段(对应重要的功能区
- 已知推未知:已知有特殊功能的序列片段通过多序列做成模型,推测未知序列
- 其他:蛋白质/RNA二级结构的预测
保存格式:html、clustalw(文本格式、fasta、phylip
多序列比对的编辑软件
Jalview:基于java环境
寻找保守区域
- weblogo 3:在线软件
- MEME:自动从一组相关的DNA或蛋白质序列中发现序列基序的软件(原始序列)
基序:序列中特定模式的序列片段 - PRINTS:指纹图谱,一组保守的序列基序,刻画蛋白质家族的特征。由多序列比对杰哥获得
对于一个陌生的蛋白质,看它的序列是否符合某个家族的图谱就能对它进行分类和预测功能
分子进化和系统发育
分子进化
基本概念
- 分子进化:通过分子结构研究物种进化
- 不同的同源
同源:来源于共同祖先的相似序列
直系同源
旁系同源
异同源:水平方向的复制(共生和病毒感染)
系统发生树
意义
- 确认:确定亲缘关系
- 预测:预测基因和蛋白质功能以及分子走势
- 溯源
序列一致度大于70%,用DNA序列构建系统发育树,否则用蛋白质序列构建
蛋白质结构
蛋白质的二级结构
已知结构
- DSSP蛋白质二级结构定义字典:已经解析出三级结构的蛋白质指认其二级结构(H:alpha螺旋,E:beta折片)
输入PDB,输出DSSP文件 - PDB查看二级结构
- Biotools网站
未知结构
- 预测二级结构
- PSIPRED
蛋白质的三级结构
整条多肽链的三维空间结构,包括骨架和侧链在内的所有原子的空间排列
- X-ray Crystallography:x射线衍射法
- Nuclear Magnetic Resonance:核磁共振法
蛋白质三维结构可视化软件
- PyMOL
- VMD
计算方法预测三级结构
- 同源建模法:SWISS-MODEL(一致度>30%)
- 穿线法:I-TASSER(不要求一致性)
- 从头计算法:QUARK(计算量巨大、长度200以内)
- 综合法:ROBETTA
- 模型质量评估软件(MQAPs):从空间几何学,立体化学和能量分布评估
UCLA、PROq、ModFold
三级结构对比
- 结构比对:对蛋白质三维空间结构的相似性进行比较
- 用于探索蛋白质进化及同源关系
- 改进序列比对精度
- 改进蛋白质结构预测工具
- 为蛋白质结构分类提供依据
- 帮助了解蛋白质功能
- 结构比对工具(PMSD参数衡量)
- ExPASy
- SuperPose
蛋白质表面性质
- 表面形状(surf )
- 表面电荷分布(electrostatic potential)
- 表面残基可溶性(solvent accessibility):残基与溶剂接触程度。内部、表面、中间
蛋白质的四级结构
获取蛋白质四级结构
独立的三级结构单元(亚基、单体monomer)聚集形成的复合物。dimer、trimer…
DIP、BioGRID、STRING…
蛋白质-蛋白质分子对接
条件:形状互补、亲疏水性、表面电荷分布
分类:刚性对接、柔性对接
软件:ZDOCK
蛋白质-小分子化合物 分子对接
AutoDock(基于python)
虚拟筛选
分子对接:虚拟筛选virtual screening
在计算机上对小分子进行预筛选,降低实际化合物的数目
ZINC:化合物小分子数据库
反向对接(Target Fishing)
通过把一个小分子与多个靶标蛋白质进行分子对接,寻找潜在的靶标
scPDB
分子动力学模拟
NAMD、CHARMM、DESMOND、GAUSS
高通量测序(high throughput sequencing)
高通量测序技术在精准医学中的应用
- 识别新的疾病基因
- 基于基因组学的疾病的筛查(eg:新生儿耳聋筛查、唐氏综合征)
- 精准诊断
生物信息学面临的问题
- 数据规模庞大
海量数据的计算和挖掘成为主要瓶颈(计算节点+大内存):云平台
数据存储和可视化 - 数据类型复杂
- 方法学不成熟
测序偏差、错误:错误矫正 - 技术门槛高
- 可重复性不强
统计基础
贝叶斯公式及其在生物学上的应用
贝叶斯方法在蛋白质耐热性分类中的研究(paper)
二元预测的灵敏度和特异度
eg:地震预测
eg:生物学例子
二者很难兼得
序列算法
序列算法:为研究生物序列而开发的计算复杂度尽可能低的算法
eg:序列匹配(找重复序列
- 构建后缀树
- 查找字符串是否在s中
- 查找字符串重复出现的次数(有多少树叶)
- 找字符串中最长重复子序列(非叶子结点找最长)
- $用于标识出独立的叶片
- 最高分子序列
应用1:预测蛋白质序列跨膜区域(亲疏水性)
应用2:预测DNA序列中富含GC的区域
算法:动态规划O(n2)>分而治之O(nlogn)>聪明算法O(n)
数据挖掘
什么是数据挖掘?
big data:大、快、杂、疑
eg:尿不湿和啤酒
数据库系统
数据库(DB)+数据库管理系统(DBMS)
数据库:关系型数据库(MySQL)
面对对象型数据库(eXist-db)
机器学习
-
设计分析计算机可以自动学习的算法。从一类数据中获取规律,利用规律对未知数据进行预测。
-
用向量表述物体
-
任务:分类、聚类、回归
-
k次交叉检验(检验模型的常用方法)
-
机器学习算法
- 贝叶斯算法(Bayes theorem):利用
- 最近邻居法(neighbor Joining):将已知物体根据自己的特征属性标记在坐标系中,再将新物体根据自身属性特征标记在坐标系中。新物体离哪个物体近,就属于哪种已知物体
- 决策树(Decision tree):它表示对象属性和对象值之间的一种映射,树中的每个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树中的叶子节点表示预测的结果。
- 支持向量机(SVM):二分类模型,也可拓展为多分类。其基于间隔最大化特点可以使它更加灵活的处理线性和非线形问题
- 人工神经网络
- 遗传算法
WEKA(Waikato Environment for Knowledge Analysis)
-
文件格式(ARFF):纯文本文件,可转换成表格
-
术语:实例(行、属性(列、关系(结果
-
文件内容:头、属性声明、数据
-
属性类型
- 数值型:numeric
- 标称型:nominal-specification
- 字符串型:string
- 时间日期型:date
-
格式转换
Excel-csv-arff -
Explorer 界面:数据挖掘界面
- 数据预处理(增、减、修改属性等
- 执行挖掘任务(选择算法
- 衡量模型准确度 (k次交叉检验结果、TP,TN等)
Perl语言
基本语法规则
常用函数
if语句
for循环
获取下载页面