Bioinfomatic

最新推荐文章于 2024-07-18 18:43:19 发布

Ddddan_

最新推荐文章于 2024-07-18 18:43:19 发布

阅读量1.2k

点赞数 1

文章标签：数据库 linux 机器学习 perl

本文链接：https://blog.csdn.net/weixin_47677565/article/details/107632451

版权

Bioinfomatic

说明：生物信息学课程总结、笔记
课程链接：
https://www.icourse163.org/learn/SDU-1001907001?tid=1450236461#/learn/content?type=detail&id=1214471915&cid=1218216835

什么是生物信息学？

概念

生物信息学就是用计算机解决生物学问题

研究对象

在这里插入图片描述

学什么？

在这里插入图片描述

生物数据库

收集——查看——整理

生物数据库分类

在这里插入图片描述

常用

PubMed：文献数据库（包含200多万生物医学文献
显示格式分为多种，选择MEDLINE格式可以查看数据库内部存储结构）
关键字[TI]：定位关键字
一级核苷酸数据库
NCBI（GenBank）：隶属于美国国立卫生研究院（NIH）
结构：
EMBL（ENA）：欧洲核苷酸序列数据集
DDBJ：日本DNA数据库
Ensemble：从染色体入手找具体的基因
JCVI（微生物宏基因组数据库）
二级核酸数据库
一级蛋白质序列数据库
UniProt：http://www.uniport.org
-一级蛋白质结构数据库

PDB:Protein Data Bank
存储蛋白质氨基酸原子的3D坐标
二级蛋白质数据库
蛋白质一般是由一个或多个功能区域组成。这些功能区域称为结构域（domain）。在不同蛋白质结构中以不同组合的形式出现，形成蛋白质的多样性。
*pfam：蛋白质结构域家族的集合http://www.pfam.org
查找某条序列上有哪些结构域
*CATH-Gene3D：蛋白质结构域分类（使用计算机程序+人工检查）
属于同一个结构域分类的蛋白质的聚类图以及挑选出来的蛋白质的3D图
*scop2:和CATH同，更多考虑蛋白质结构的进化

序列比较（第一部分）

认识序列：寻找相似序列，构建进化树（相似序列意味着相似结构和相似功能）
序列相似性：一致性（identity）、相似性（similarity）
替换记分矩阵：
- DNA
1. 等价矩阵（unitary matrix）：相同为1，不同为0
2. 转换-颠换矩阵（transition-transvehrsion matrix):转换为-1（A、G）、颠换为-5（C、T）
3. blast矩阵：相同为4，不同为-5
- 蛋白质
  
  亲缘关系较远：BLOSUM-
  亲缘关系较近：PAM-
  常用：BLOSUM-62
1. 遗传密码子矩阵
2. 疏水矩阵：疏水大
比较两个序列的方法：打点法
相同打点，若多对角线元素相连的子序列，则相似性高
序列自身比较可以找出序列中的重复片段
常用软件：Dotlet
比较两个长度不同的序列的方法：序列比对法
- 定义（alignment）：通过插入空格（gap）的方式，产生最大相似度得分的排列方式
- 分类
  - 双序列比对
    - 全局比对：用于比较长度相似的序列
    - 局部比对：用于比对长短差异大的序列
  - 多序列比对
一致性和相似度
（一致或相似字符的个数/全局比对长度）*100%
无论序列是否相同，都要先做双序列全局比对，然后计算
在线双序列比对工具
- EMBL
  gap参数设置：开头和延长（根据需要设置）
blast比对
基本局部序列比对：寻找片段对O(n)

序列比对（第二部分）

多序列比对的介绍

确认：一个未知的序列是否在某个家族里
建立：系统发育树，查看物种与序列之间的关系
模式识别：通过多序列比对找到相对保守的片段（对应重要的功能区
已知推未知：已知有特殊功能的序列片段通过多序列做成模型，推测未知序列
其他：蛋白质/RNA二级结构的预测

保存格式：html、clustalw(文本格式、fasta、phylip

多序列比对的编辑软件

Jalview：基于java环境

寻找保守区域

weblogo 3:在线软件
MEME：自动从一组相关的DNA或蛋白质序列中发现序列基序的软件（原始序列）
基序：序列中特定模式的序列片段
PRINTS：指纹图谱，一组保守的序列基序，刻画蛋白质家族的特征。由多序列比对杰哥获得
对于一个陌生的蛋白质，看它的序列是否符合某个家族的图谱就能对它进行分类和预测功能

分子进化和系统发育

分子进化

基本概念

分子进化：通过分子结构研究物种进化
不同的同源
同源：来源于共同祖先的相似序列
直系同源
旁系同源
异同源：水平方向的复制（共生和病毒感染）

系统发生树

意义

确认：确定亲缘关系
预测：预测基因和蛋白质功能以及分子走势
溯源

序列一致度大于70%，用DNA序列构建系统发育树，否则用蛋白质序列构建

蛋白质结构

蛋白质的二级结构

已知结构

DSSP蛋白质二级结构定义字典：已经解析出三级结构的蛋白质指认其二级结构（H：alpha螺旋，E：beta折片）
输入PDB，输出DSSP文件
PDB查看二级结构
Biotools网站

未知结构

预测二级结构
- PSIPRED

蛋白质的三级结构

整条多肽链的三维空间结构，包括骨架和侧链在内的所有原子的空间排列

X-ray Crystallography：x射线衍射法
Nuclear Magnetic Resonance：核磁共振法

蛋白质三维结构可视化软件

PyMOL
VMD

计算方法预测三级结构

同源建模法：SWISS-MODEL（一致度>30%）
穿线法：I-TASSER（不要求一致性）
从头计算法：QUARK（计算量巨大、长度200以内）
综合法：ROBETTA
模型质量评估软件（MQAPs）：从空间几何学，立体化学和能量分布评估
UCLA、PROq、ModFold

三级结构对比

结构比对：对蛋白质三维空间结构的相似性进行比较
1. 用于探索蛋白质进化及同源关系
2. 改进序列比对精度
3. 改进蛋白质结构预测工具
4. 为蛋白质结构分类提供依据
5. 帮助了解蛋白质功能
结构比对工具（PMSD参数衡量）
1. ExPASy
2. SuperPose

蛋白质表面性质

表面形状（surf ）
表面电荷分布（electrostatic potential）
表面残基可溶性（solvent accessibility）：残基与溶剂接触程度。内部、表面、中间

蛋白质的四级结构

获取蛋白质四级结构

独立的三级结构单元（亚基、单体monomer）聚集形成的复合物。dimer、trimer…
DIP、BioGRID、STRING…

蛋白质-蛋白质分子对接

条件：形状互补、亲疏水性、表面电荷分布
分类：刚性对接、柔性对接
软件：ZDOCK

蛋白质-小分子化合物分子对接

AutoDock（基于python）

虚拟筛选

分子对接：虚拟筛选virtual screening
在计算机上对小分子进行预筛选，降低实际化合物的数目
ZINC：化合物小分子数据库

反向对接（Target Fishing）

通过把一个小分子与多个靶标蛋白质进行分子对接，寻找潜在的靶标
scPDB

分子动力学模拟

NAMD、CHARMM、DESMOND、GAUSS

高通量测序（high throughput sequencing)

高通量测序技术在精准医学中的应用

识别新的疾病基因
基于基因组学的疾病的筛查（eg：新生儿耳聋筛查、唐氏综合征）
精准诊断

生物信息学面临的问题

数据规模庞大
海量数据的计算和挖掘成为主要瓶颈（计算节点+大内存）：云平台
数据存储和可视化
数据类型复杂
方法学不成熟
测序偏差、错误：错误矫正
技术门槛高
可重复性不强

统计基础

贝叶斯公式及其在生物学上的应用

贝叶斯方法在蛋白质耐热性分类中的研究（paper）

二元预测的灵敏度和特异度

eg：地震预测
eg：生物学例子
二者很难兼得

序列算法

序列算法：为研究生物序列而开发的计算复杂度尽可能低的算法
eg：序列匹配（找重复序列

构建后缀树
1. 查找字符串是否在s中
2. 查找字符串重复出现的次数（有多少树叶）
3. 找字符串中最长重复子序列（非叶子结点找最长）
4. $用于标识出独立的叶片
最高分子序列
应用1:预测蛋白质序列跨膜区域（亲疏水性）
应用2:预测DNA序列中富含GC的区域
算法：动态规划O(n2)>分而治之O(nlogn)>聪明算法O(n)

数据挖掘

什么是数据挖掘？

big data：大、快、杂、疑
eg：尿不湿和啤酒

数据库系统

数据库（DB）+数据库管理系统（DBMS）
数据库：关系型数据库（MySQL）
面对对象型数据库（eXist-db）

机器学习

设计分析计算机可以自动学习的算法。从一类数据中获取规律，利用规律对未知数据进行预测。
用向量表述物体
任务：分类、聚类、回归
k次交叉检验（检验模型的常用方法）
机器学习算法
- 贝叶斯算法(Bayes theorem)：利用
- 最近邻居法(neighbor Joining)：将已知物体根据自己的特征属性标记在坐标系中，再将新物体根据自身属性特征标记在坐标系中。新物体离哪个物体近，就属于哪种已知物体
- 决策树(Decision tree)：它表示对象属性和对象值之间的一种映射，树中的每个节点表示对象属性的判断条件，其分支表示符合节点条件的对象。树中的叶子节点表示预测的结果。
- 支持向量机（SVM）：二分类模型，也可拓展为多分类。其基于间隔最大化特点可以使它更加灵活的处理线性和非线形问题
- 人工神经网络
- 遗传算法

WEKA(Waikato Environment for Knowledge Analysis)

文件格式(ARFF):纯文本文件，可转换成表格
术语：实例（行、属性（列、关系（结果
文件内容：头、属性声明、数据
属性类型
- 数值型：numeric
- 标称型：nominal-specification
- 字符串型：string
- 时间日期型：date
格式转换
Excel-csv-arff
Explorer 界面：数据挖掘界面
- 数据预处理（增、减、修改属性等
- 执行挖掘任务（选择算法
- 衡量模型准确度（k次交叉检验结果、TP，TN等）

Perl语言

基本语法规则
在这里插入图片描述

常用函数
在这里插入图片描述

if语句
在这里插入图片描述

在这里插入图片描述
for循环

获取下载页面

Ddddan_

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Bioinfomatic

Bioinfomatic什么是生物信息学？概念生物信息学就是用计算机解决生物学问题研究对象学什么？生物数据库生物数据库收集——查看——整理生物数据库分类常用PubMed：文献数据库（包含200多万生物医学文献显示格式分为多种，选择MEDLINE格式可以查看数据库内部存储结构）关键字[TI]：定位关键字一级核苷酸数据库NCBI（GenBank）：隶属于美国国立卫生研究院（NIH）结构：EMBL（ENA）：欧洲核苷酸序列数据集DDBJ：日本DNA数据库Ensembl
复制链接

扫一扫