【学习笔记】山东大学生物信息学-07 数据挖掘（WEKA）

taotaotao7777777

已于 2022-06-13 15:48:00 修改

阅读量1k

点赞数

分类专栏：生物信息学文章标签：数据挖掘学习人工智能

于 2022-06-13 14:50:04 首次发布

本文链接：https://blog.csdn.net/zea408497299/article/details/125241118

版权

这篇博客介绍了山东大学生物信息学课程中关于数据挖掘的内容，重点讲解了数据库系统、机器学习和WEKA工具的使用。在机器学习部分，讨论了分类、聚类和回归任务，以及K次交叉检验的重要性。在WEKA部分，详细阐述了ARFF文件格式、数据预处理和执行挖掘任务的步骤，包括属性转换、数据预处理和常见算法的应用。

摘要由CSDN通过智能技术生成

课程地址：山东大学生物信息学

文章目录

七、数据挖掘

七、数据挖掘

● 数据挖掘三要素

统计
数据库系统
机器学习

7.1 数据库系统

● 数据库系统

数据库系统 DBS：System(DB+DBMS)
数据库管理系统 DBMS: Database Management System (software for management)
数据库 DB: Database (data storage)
数据库系统 = 数据库 + 数据库管理系统

● 数据库类型

关系型数据库：表格形式存储数据。
面对对象型数据库：xml 形式存储，结构清晰、灵活，适合存储复杂的生物数据。

● 常用数据库系统

关系型数据库系统：MySQL（SQL 语言）
面对对象型数据库系统：exist-db （基于 JAVA，XQuery 语言）

7.2 机器学习

机器学习 (Machine Learning)：主要是设计和分析一些让计算机自动“学习”的算法。这些算法是一类从数据中获得规律，并利用这些规律对未知数据进行预测的算法。
机器学习的实现：把需要计算机学习的物体转化成向量，用向量描述物体，让计算机读取向量值。如：

常见的机器学习的任务

1、分类（Classification）：有背景知识，根据背景知识判断新物体属于哪一类。
2、聚类（Clustering）：没有背景知识，对于一组新物体，通过判断其属性，将所有新物体分组。
3、回归（Regression）：有背景知识，根椐背景知识推导出 x1, x2, …，xn 与 y 之间的定量关系，并据此计算新物体的 y。
在这里插入图片描述

K 次交叉检验

聚类不需要训练组数据学习背景知识（Unsupervised）。
回归和分类需要训练组数据 training dataset 学习背景知识（Supervised）训练出预测模型，预测模型训练好后还需要从训练组中拿出一部分作为测试组数据 test dataset 来测试模型的准确度。
理论上，所有已知结果的数据都应该拿来做训练，训练数据以外的数据不知道结果，无法拿来做测试；如果用训练数据做测试是过学习；用测试组数据做测试是欠学习；使用 K 次交叉检验可以避免过学习和欠学习，是检验机器学习效果的常用方法之一。
K 次交叉检验 (K-fold cross validation)：把所有已知结果的数据分成 k 份。取出第 1 份作为测试组数据，其余 k-1 份作为训练组数据训练模型，用测试组数据测试模型的准确度；再取出第 2 分作为测试组数据，其余 k-1 份作为训练组数据训练模型；依此类推，让每一份都作为依次测试组数据，如此，用同种算法构建出 k 个模型进行 k 次测试，得到 k 个准确度，计算平均准确度，即最终模型的准确度。
详见视频：机器学习-01 P127