Bioinfomatic

Bioinfomatic

说明:生物信息学课程总结、笔记
课程链接:
https://www.icourse163.org/learn/SDU-1001907001?tid=1450236461#/learn/content?type=detail&id=1214471915&cid=1218216835

什么是生物信息学?

概念

生物信息学就是用计算机解决生物学问题

研究对象

在这里插入图片描述

学什么?

在这里插入图片描述

生物数据库

生物数据库

收集——查看——整理

生物数据库分类

在这里插入图片描述

常用
  • PubMed:文献数据库(包含200多万生物医学文献
    显示格式分为多种,选择MEDLINE格式可以查看数据库内部存储结构)
    关键字[TI]:定位关键字
  • 一级核苷酸数据库
    NCBI(GenBank):隶属于美国国立卫生研究院(NIH)
    结构:
    EMBL(ENA):欧洲核苷酸序列数据集
    DDBJ:日本DNA数据库
    Ensemble:从染色体入手找具体的基因
    JCVI(微生物宏基因组数据库)
  • 二级核酸数据库
  • 一级蛋白质序列数据库
    UniProt:http://www.uniport.org
    -一级蛋白质结构数据库
    蛋白质结构
    PDB:Protein Data Bank
    存储蛋白质氨基酸原子的3D坐标
  • 二级蛋白质数据库
    蛋白质一般是由一个或多个功能区域组成。这些功能区域称为结构域(domain)。在不同蛋白质结构中以不同组合的形式出现,形成蛋白质的多样性。
    *pfam:蛋白质结构域家族的集合http://www.pfam.org
    查找某条序列上有哪些结构域
    *CATH-Gene3D:蛋白质结构域分类(使用计算机程序+人工检查)
    属于同一个结构域分类的蛋白质的聚类图以及挑选出来的蛋白质的3D图
    *scop2:和CATH同,更多考虑蛋白质结构的进化

序列比较(第一部分)

  • 认识序列:寻找相似序列,构建进化树(相似序列意味着相似结构和相似功能)

  • 序列相似性:一致性(identity)、相似性(similarity)

  • 替换记分矩阵:

    • DNA
    1. 等价矩阵(unitary matrix):相同为1,不同为0
    2. 转换-颠换矩阵(transition-transvehrsion matrix):转换为-1(A、G)、颠换为-5(C、T)
    3. blast矩阵:相同为4,不同为-5
    • 蛋白质
      在这里插入图片描述

      亲缘关系较远:BLOSUM-
      亲缘关系较近:PAM-
      常用:BLOSUM-62

    1. 遗传密码子矩阵
    2. 疏水矩阵:疏水大
  • 比较两个序列的方法:打点法
    相同打点,若多对角线元素相连的子序列,则相似性高
    序列自身比较可以找出序列中的重复片段
    常用软件:Dotlet

  • 比较两个长度不同的序列的方法:序列比对法

    • 定义(alignment):通过插入空格(gap)的方式,产生最大相似度得分的排列方式
    • 分类
      • 双序列比对

        • 全局比对:用于 比较长度相似的序列
          在这里插入图片描述

        • 局部比对 :用于比对长短差异大的序列
          在这里插入图片描述

      • 多序列比对

  • 一致性和相似度
    (一致或相似字符的个数/全局比对长度)*100%
    无论序列是否相同,都要先做双序列全局比对,然后计算

  • 在线双序列比对工具

    • EMBL
      gap参数设置:开头和延长(根据需要设置)
  • blast比对
    基本局部序列比对:寻找片段对O(n)
    在这里插入图片描述
    在这里插入图片描述

序列比对(第二部分)

多序列比对的介绍
  1. 确认:一个未知的序列是否在某个家族里
  2. 建立:系统发育树,查看物种与序列之间的关系
  3. 模式识别:通过多序列比对找到相对保守的片段(对应重要的功能区
  4. 已知推未知:已知有特殊功能的序列片段通过多序列做成模型,推测未知序列
  5. 其他:蛋白质/RNA二级结构的预测
    在这里插入图片描述
    保存格式:html、clustalw(文本格式、fasta、phylip
多序列比对的编辑软件

Jalview:基于java环境

寻找保守区域
  • weblogo 3:在线软件
  • MEME:自动从一组相关的DNA或蛋白质序列中发现序列基序的软件(原始序列)
    基序:序列中特定模式的序列片段
  • PRINTS:指纹图谱,一组保守的序列基序,刻画蛋白质家族的特征。由多序列比对杰哥获得
    对于一个陌生的蛋白质,看它的序列是否符合某个家族的图谱就能对它进行分类和预测功能

分子进化和系统发育

分子进化
基本概念
  1. 分子进化:通过分子结构研究物种进化
  2. 不同的同源
    同源:来源于共同祖先的相似序列
    直系同源
    旁系同源
    异同源:水平方向的复制(共生和病毒感染)
系统发生树
意义
  1. 确认:确定亲缘关系
  2. 预测:预测基因和蛋白质功能以及分子走势
  3. 溯源
    在这里插入图片描述
    序列一致度大于70%,用DNA序列构建系统发育树,否则用蛋白质序列构建

蛋白质结构

蛋白质的二级结构
已知结构
  • DSSP蛋白质二级结构定义字典:已经解析出三级结构的蛋白质指认其二级结构(H:alpha螺旋,E:beta折片)
    输入PDB,输出DSSP文件
  • PDB查看二级结构
  • Biotools网站
未知结构
  • 预测二级结构
    • PSIPRED
蛋白质的三级结构

整条多肽链的三维空间结构,包括骨架和侧链在内的所有原子的空间排列

  • X-ray Crystallography:x射线衍射法
  • Nuclear Magnetic Resonance:核磁共振法在这里插入图片描述
蛋白质三维结构可视化软件
计算方法预测三级结构
  1. 同源建模法:SWISS-MODEL(一致度>30%)
  2. 穿线法:I-TASSER(不要求一致性)
    在这里插入图片描述
  3. 从头计算法:QUARK(计算量巨大、长度200以内)
  4. 综合法:ROBETTA
  5. 模型质量评估软件(MQAPs):从空间几何学,立体化学和能量分布评估
    UCLA、PROq、ModFold
三级结构对比
  • 结构比对:对蛋白质三维空间结构的相似性进行比较
    1. 用于探索蛋白质进化及同源关系
    2. 改进序列比对精度
    3. 改进蛋白质结构预测工具
    4. 为蛋白质结构分类提供依据
    5. 帮助了解蛋白质功能
  • 结构比对工具(PMSD参数衡量)
    1. ExPASy
    2. SuperPose
蛋白质表面性质
  1. 表面形状(surf )
  2. 表面电荷分布(electrostatic potential)
  3. 表面残基可溶性(solvent accessibility):残基与溶剂接触程度。内部、表面、中间

蛋白质的四级结构

获取蛋白质四级结构

独立的三级结构单元(亚基、单体monomer)聚集形成的复合物。dimer、trimer…
DIP、BioGRID、STRING…

蛋白质-蛋白质分子对接

条件:形状互补、亲疏水性、表面电荷分布
分类:刚性对接、柔性对接
软件:ZDOCK

蛋白质-小分子化合物 分子对接

AutoDock(基于python)

虚拟筛选

分子对接:虚拟筛选virtual screening
在计算机上对小分子进行预筛选,降低实际化合物的数目
ZINC:化合物小分子数据库

反向对接(Target Fishing)

通过把一个小分子与多个靶标蛋白质进行分子对接,寻找潜在的靶标
scPDB

分子动力学模拟

NAMD、CHARMM、DESMOND、GAUSS

高通量测序(high throughput sequencing)

高通量测序技术在精准医学中的应用
  1. 识别新的疾病基因
  2. 基于基因组学的疾病的筛查(eg:新生儿耳聋筛查、唐氏综合征)
  3. 精准诊断
生物信息学面临的问题
  1. 数据规模庞大
    海量数据的计算和挖掘成为主要瓶颈(计算节点+大内存):云平台
    数据存储和可视化
  2. 数据类型复杂
  3. 方法学不成熟
    测序偏差、错误:错误矫正
  4. 技术门槛高
  5. 可重复性不强

统计基础

贝叶斯公式及其在生物学上的应用

贝叶斯方法在蛋白质耐热性分类中的研究(paper)

二元预测的灵敏度和特异度

eg:地震预测
eg:生物学例子
二者很难兼得

序列算法

序列算法:为研究生物序列而开发的计算复杂度尽可能低的算法
eg:序列匹配(找重复序列

  • 构建后缀树
    1. 查找字符串是否在s中
    2. 查找字符串重复出现的次数(有多少树叶)
    3. 找字符串中最长重复子序列(非叶子结点找最长)
    4. $用于标识出独立的叶片
  • 最高分子序列
    应用1:预测蛋白质序列跨膜区域(亲疏水性)
    应用2:预测DNA序列中富含GC的区域
    算法:动态规划O(n2)>分而治之O(nlogn)>聪明算法O(n)

数据挖掘

什么是数据挖掘?

big data:大、快、杂、疑
eg:尿不湿和啤酒

数据库系统

数据库(DB)+数据库管理系统(DBMS)
数据库:关系型数据库(MySQL)
面对对象型数据库(eXist-db)

机器学习
  1. 设计分析计算机可以自动学习的算法。从一类数据中获取规律,利用规律对未知数据进行预测。

  2. 用向量表述物体

  3. 任务:分类、聚类、回归

  4. k次交叉检验(检验模型的常用方法)

  5. 机器学习算法

    • 贝叶斯算法(Bayes theorem):利用
    • 最近邻居法(neighbor Joining):将已知物体根据自己的特征属性标记在坐标系中,再将新物体根据自身属性特征标记在坐标系中。新物体离哪个物体近,就属于哪种已知物体
    • 决策树(Decision tree):它表示对象属性和对象值之间的一种映射,树中的每个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树中的叶子节点表示预测的结果。
    • 支持向量机(SVM):二分类模型,也可拓展为多分类。其基于间隔最大化特点可以使它更加灵活的处理线性和非线形问题
    • 人工神经网络
    • 遗传算法
WEKA(Waikato Environment for Knowledge Analysis)
  1. 文件格式(ARFF):纯文本文件,可转换成表格

  2. 术语:实例(行、属性(列、关系(结果

  3. 文件内容:头、属性声明、数据

  4. 属性类型

    • 数值型:numeric
    • 标称型:nominal-specification
    • 字符串型:string
    • 时间日期型:date
  5. 格式转换
    Excel-csv-arff

  6. Explorer 界面:数据挖掘界面

    • 数据预处理(增、减、修改属性等
    • 执行挖掘任务(选择算法
    • 衡量模型准确度 (k次交叉检验结果、TP,TN等)

Perl语言

基本语法规则
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

常用函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

if语句
在这里插入图片描述

在这里插入图片描述
for循环
在这里插入图片描述

获取下载页面

获取下载页面

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值