课程地址:山东大学生物信息学
文章目录
七、数据挖掘
● 数据挖掘三要素
- 统计
- 数据库系统
- 机器学习
7.1 数据库系统
● 数据库系统
- 数据库系统 DBS:System(DB+DBMS)
- 数据库管理系统 DBMS: Database Management System (software for management)
- 数据库 DB: Database (data storage)
- 数据库系统 = 数据库 + 数据库管理系统
● 数据库类型
- 关系型数据库:表格形式存储数据。
- 面对对象型数据库:xml 形式存储,结构清晰、灵活,适合存储复杂的生物数据。
● 常用数据库系统
- 关系型数据库系统:MySQL(SQL 语言)
- 面对对象型数据库系统:exist-db (基于 JAVA,XQuery 语言)
7.2 机器学习
- 机器学习 (Machine Learning):主要是设计和分析一些让计算机自动“学习”的算法。这些算法是一类从数据中获得规律,并利用这些规律对未知数据进行预测的算法。
- 机器学习的实现:把需要计算机学习的物体转化成向量,用向量描述物体,让计算机读取向量值。如:
常见的机器学习的任务
1、分类(Classification):有背景知识,根据背景知识判断新物体属于哪一类。
2、聚类(Clustering):没有背景知识,对于一组新物体,通过判断其属性,将所有新物体分组。
3、回归(Regression):有背景知识,根椐背景知识推导出 x1, x2, …,xn 与 y 之间的定量关系,并据此计算新物体的 y。
K 次交叉检验
-
聚类不需要训练组数据学习背景知识(Unsupervised)。
-
回归和分类需要训练组数据
training dataset
学习背景知识(Supervised)训练出预测模型,预测模型训练好后还需要从训练组中拿出一部分作为测试组数据test dataset
来测试模型的准确度。 -
理论上,所有已知结果的数据都应该拿来做训练,训练数据以外的数据不知道结果,无法拿来做测试;如果用训练数据做测试是过学习;用测试组数据做测试是欠学习;使用 K 次交叉检验可以避免过学习和欠学习,是检验机器学习效果的常用方法之一。
-
K 次交叉检验 (K-fold cross validation):把所有已知结果的数据分成 k 份。取出第 1 份作为测试组数据,其余 k-1 份作为训练组数据训练模型,用测试组数据测试模型的准确度;再取出第 2 分作为测试组数据,其余 k-1 份作为训练组数据训练模型;依此类推,让每一份都作为依次测试组数据,如此,用同种算法构建出 k 个模型进行 k 次测试,得到 k 个准确度,计算平均准确度,即最终模型的准确度。
-
详见视频:机器学习-01 P127
机器学习的算法
● 几种常见算法:
-
贝叶斯:Bayes theorem
通常,事