【学习笔记】山东大学生物信息学-07 数据挖掘(WEKA)

课程地址山东大学生物信息学


七、数据挖掘

数据挖掘三要素

  1. 统计
  2. 数据库系统
  3. 机器学习

7.1 数据库系统

数据库系统

  • 数据库系统 DBS:System(DB+DBMS)
  • 数据库管理系统 DBMS: Database Management System (software for management)
  • 数据库 DB: Database (data storage)
  • 数据库系统 = 数据库 + 数据库管理系统

数据库类型

  • 关系型数据库:表格形式存储数据。
  • 面对对象型数据库:xml 形式存储,结构清晰、灵活,适合存储复杂的生物数据。
    在这里插入图片描述

常用数据库系统

  • 关系型数据库系统:MySQL(SQL 语言)
  • 面对对象型数据库系统exist-db (基于 JAVA,XQuery 语言)

7.2 机器学习

  • 机器学习 (Machine Learning):主要是设计和分析一些让计算机自动“学习”的算法。这些算法是一类从数据中获得规律,并利用这些规律对未知数据进行预测的算法。
  • 机器学习的实现:把需要计算机学习的物体转化成向量,用向量描述物体,让计算机读取向量值。如:
    在这里插入图片描述

常见的机器学习的任务

1、分类(Classification):有背景知识,根据背景知识判断新物体属于哪一类。
2、聚类(Clustering):没有背景知识,对于一组新物体,通过判断其属性,将所有新物体分组。
3、回归(Regression):有背景知识,根椐背景知识推导出 x1, x2, …,xn 与 y 之间的定量关系,并据此计算新物体的 y。
在这里插入图片描述

K 次交叉检验

  • 聚类不需要训练组数据学习背景知识(Unsupervised)。

  • 回归和分类需要训练组数据 training dataset 学习背景知识(Supervised)训练出预测模型,预测模型训练好后还需要从训练组中拿出一部分作为测试组数据 test dataset 来测试模型的准确度。

  • 理论上,所有已知结果的数据都应该拿来做训练,训练数据以外的数据不知道结果,无法拿来做测试;如果用训练数据做测试是过学习;用测试组数据做测试是欠学习;使用 K 次交叉检验可以避免过学习和欠学习,是检验机器学习效果的常用方法之一。

  • K 次交叉检验 (K-fold cross validation):把所有已知结果的数据分成 k 份。取出第 1 份作为测试组数据,其余 k-1 份作为训练组数据训练模型,用测试组数据测试模型的准确度;再取出第 2 分作为测试组数据,其余 k-1 份作为训练组数据训练模型;依此类推,让每一份都作为依次测试组数据,如此,用同种算法构建出 k 个模型进行 k 次测试,得到 k 个准确度,计算平均准确度,即最终模型的准确度在这里插入图片描述

  • 详见视频:机器学习-01 P127

机器学习的算法

几种常见算法

  • 贝叶斯:Bayes the

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目录列表: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff autoPrice.arff autos.arff auto_price.arff balance-scale.arff bank.arff bank32nh.arff bank8FM.arff baskball.arff bodyfat.arff bolts.arff breast-cancer.arff breast-w.arff breastTumor.arff bridges_version1.arff bridges_version2.arff cal_housing.arff car.arff cholesterol.arff cleveland.arff cloud.arff cmc.arff colic.arff colic.ORIG.arff contact-lenses.arff cpu.arff cpu.with.vendor.arff cpu_act.arff cpu_small.arff credit-a.arff credit-g.arff cylinder-bands.arff delta_ailerons.arff delta_elevators.arff dermatology.arff detroit.arff diabetes.arff diabetes_numeric.arff echoMonths.arff ecoli.arff elevators.arff elusage.arff eucalyptus.arff eye_movements.arff fishcatch.arff flags.arff fried.arff fruitfly.arff gascons.arff glass.arff grub-damage.arff heart-c.arff heart-h.arff heart-statlog.arff hepatitis.arff house_16H.arff house_8L.arff housing.arff hungarian.arff hypothyroid.arff ionosphere.arff iris.2D.arff iris.arff kdd_coil_test-1.arff kdd_coil_test-2.arff kdd_coil_test-3.arff kdd_coil_test-4.arff kdd_coil_test-5.arff kdd_coil_test-6.arff kdd_coil_test-7.arff kdd_coil_train-1.arff kdd_coil_train-3.arff kdd_coil_train-4.arff kdd_coil_train-5.arff kdd_coil_train-6.arff kdd_coil_train-7.arff kdd_el_nino-small.arff kdd_internet_usage.arff kdd_ipums_la_97-small.arff kdd_ipums_la_98-small.arff kdd_ipums_la_99-small.arff kdd_JapaneseVowels_test.arff kdd_JapaneseVowels_train.arff kdd_synthetic_control.arff kdd_SyskillWebert-Bands.arff kdd_SyskillWebert-BioMedical.arff kdd_SyskillWebert-Goats.arff kdd_SyskillWebert-Sheep.arff kdd_UNIX_user_data.arff kin8nm.arff kr-vs-kp.arff labor.arff landsat_test.arff landsat_train.arff letter.arff liver-disorders.arff longley.arff lowbwt.arff lung-cancer.arff lymph.arff machine_cpu.arff mbagrade.arff meta.arff mfeat-factors.arff mfeat-fourier.arff mfeat-karhunen.arff mfeat-morphological.arff mfeat-pixel.arff mfeat-zernike.arff molecular-biology_promoters.arff monks-problems-1_test.arff monks-problems-1_train.arff monks-problems-2_test.arff monks-problems-2_train.arff monks-problems-3_test.arff monks-problems-3_train.arff mushroom.arff mv.arff nursery.arff optdigits.arff page-blocks.arff pasture.arff pbc.arff pendigits.arff pharynx.arff pol.arff pollution.arff postoperative-patient-data.arff primary-tumor.arff puma32H.arff puma8NH.arff pwLinear.arff pyrim.arff quake.arff ReutersCorn-test.arff ReutersCorn-train.arff ReutersGrain-test.arff ReutersGrain-train.arff schlvote.arff segment-challenge.arff segment-test.arff segment.arff sensory.arff servo.arff sick.arff sleep.arff solar-flare_1.arff solar-flare_2.arff sonar.arff soybean.arff spambase.arff spectf_test.arff spectf_train.arff spectrometer.arff spect_test.arff spect_train.arff splice.arff sponge.arff squash-stored.arff squash-unstored.arff stock.arff strike.arff supermarket.arff triazines.arff unbalanced.arff vehicle.arff veteran.arff vineyard.arff vote.arff vowel.arff water-treatment.arff waveform-5000.arff weather.nominal.arff weather.numeric.arff white-clover.arff wine.arff wisconsin.arff zoo.arff
根据1994年的美国人口普查数据进行数据挖掘分析,我们将使用Weka来探索那些收入超过50,000美元的人群。 Weka是一种流行的数据挖掘和机器学习工具,可以用于处理和分析大规模的数据集。使用Weka,我们可以探索人口普查数据中的各种特征和模式,以找到那些收入超过50,000美元的人群的共同特征。 首先,我们可以载入人口普查数据集到Weka中。数据集可能包含有关个人的各种属性,如年龄、教育水平、职业、工资等。我们需要使用Weka提供的数据预处理功能对数据进行清洗和准备,确保数据的质量和完整性。 接下来,我们可以使用Weka的分类算法来预测个人的收入水平。通过训练模型并使用历史数据,我们可以推断出哪些特征与超过50,000美元的收入相关联。常见的分类算法包括决策树、逻辑回归和支持向量机等。 在得出预测结果后,我们可以使用Weka提供的可视化工具来展示收入超过50,000美元的人群的特征和模式。这有助于我们更好地理解数据,并为进一步的分析提供线索。 除此之外,我们可以使用Weka进行特征选择和降维,以便建立更简约的模型和更好的解释能力。Weka提供了多种特征选择和降维技术,如主成分分析和相关系数评估等。 总的来说,使用Weka对1994年美国人口普查数据进行数据挖掘可以帮助我们找到收入超过50,000美元的人群的共同特征和模式。通过分析数据,我们可以获得有关该人群的洞察,并为进一步的研究和决策提供支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值