Weka教程,使用Weka进行简单的分类和聚类

一、weka安装及基本操作

  1. weka基于Java环境,所以首先需要安装Java的jdk;具体可参考JDK的下载、安装和环境配置教程(2021年,win10)_jdk下载_「已注销」的博客-CSDN博客
  2. weka软件的安装教程,具体可参考学习weka(1):weka软件安装使用教程_用weka打开数据显示重新安装_蓝亚之舟的博客-CSDN博客
  3. weka界面功能及外部数据集导入,具体可参考(2条消息) 《数据挖掘基础》实验:Weka环境基本操作_weka数据挖掘实验报告_lazyn的博客-CSDN博客

二、数据集下载

Weka中自带的有数据集,在你的Weka安装目录下data文件夹中,如果想下载外部的数据集,可以参考下面这篇文章:

UCI数据集下载及转换为arff文件

三、使用Weka进行简单的分类操作

1,打开Weka软件,点击Explorer

  1. 进入以下界面后点击Open file

 

3,找到自己Weka的安装目录,进入data文件夹,选择自己需要分类的数据集,当然也可以是外部数据集,但文件需要是arff类型文件,其它文件类型如何转为arff类型可参考《数据挖掘基础》实验:Weka环境基本操作_weka数据挖掘实验报告_lazyn的博客-CSDN博客

4,我们就用Weka自带的数据集进行演示,选择iris(鸢尾花)数据集,点击打开

5,下面这个界面显示了数据集的基本信息,通过点击不同的属性,可以查看属性的基本信息。对于右下角的柱状图,横坐标代表sepallength(花萼长度),纵坐标代表该长度下鸢尾花的数量。不同的颜色代表不同的类别,具体类别可点击class属性查看。

6,下面进入分类操作,点击Classify进入分类界面,点击Choose选择分类器

7,可以根据需要选择不同的分类器,我们以REPTree(决策树)为例,点击REPTree

8,对于Test options中的四个选项,Use training set代表将当前数据集用作训练集;当选择Supplied test set选项时,点击右侧set按钮选择本地的一个arff文件作为测试集;Cross-validation代表交叉验证,可以根据需求通过设置右侧folds的大小来设置交叉验证的次数;对于Percentage split选项,当你的数据集没有测试集时,可以通过设置右侧的数字来将你的数据集分为训练集和测试集,图中的数字为66,其代表将数据集66%的数据作为训练集,其余34%的数据作为测试集。红框中下拉框的作用是根据需求选择不同的属性进行分类。

9,点击Start按钮对数据进行分类,右侧显示了分类结果

10,还可以将生成的决策树可视化,在Result list中选中结果,右键选择Visualize tree

 

四、使用Weka进行聚类操作

1,前面的操作和上面分类操作的步骤一样,导入数据集后进入到聚类的界面,需要注意的地方在下图中进行了标注。

2,双击选择的算法会弹出一个类编辑器,在这里可以设置聚类算法要分成几个类别。

 3,和分类的操作类似,右键选择生成的结果,点击Visualize cluster assignments可以查看聚类的结果,还可以通过更换X轴或Y轴的属性来查看不同的结果。

如果感觉还是难以学会,可以去看一下下面这个视频课程,本人也是通过此视频学习的,视频里面会有更多细节性的操作。只需看1.2--2.3节就可以让你对Weka的操作有个大概的理解。Exploring the Explorer__bilibili

  • 21
    点赞
  • 166
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值