KnowledgeFlow提供了一个替代资源管理器作为WEKA核心算法的图形前端。知识流是一个正在进行中的工作,所以从资源管理器的一些功能尚不可用。另一方面,有些事情可以在KnowledgeFlow中完成,但不能在Explorer中完成。
KnowledgeFlow向WEKA提供了一个数据流灵感接口。用户可以从工具栏中选择WEKA组件,将它们放置在布局栏上,并将它们连接在一起,以形成用于处理和分析数据的知识流。目前,WEKA的所有分类器,过滤器,聚类器,加载器和存储器都可以在KnowledgeFlow中使用一些额外的工具。
KnowledgeFlow可以递增或批量处理数据(Explorer仅处理批处理数据)。当然,从数据中学习需要一个可以在实例基础上更新的分类器。目前在WEKA有十个分类器可以递增地处理数据:
•AODE
•IB1
•IBk
•KStar
•NaiveBayesMultinomialUpdateable•NaiveBayesUpdateable
•NNge
•温诺
其中两个是元分类器:
•RacedIncrementalLogitBoost- 可以使用任何回归基础学习器从离散类数据中逐步学习。
•LWL- 局部加权学习。
本手册也可以在WekaDoc Wiki [2]上在线获得。
2特点
KnowledgeFlow提供以下功能:
•直观的数据流风格布局
•批量或增量处理数据
•并行处理多个批处理或流(每个单独的流在其自己的线程中执行)
•链条过滤器在一起
•在交叉验证中查看由每个折叠的分类器生成的模型
•处理过程中的分类器的可视化性能(分类精度,RMS误差,预测等的滚动图)
•插件工具,允许向Knowl- edgeFlow轻松添加新组件
3组件
KnowledgeFlow中可用的组件:
3.1数据源
所有WEKA的装载机都可用。
3.2数据链
所有WEKA的储户都可用。
3.3过滤器
所有WEKA的过滤器都可用。
所有WEKA的分类器都可用。
3.5聚类
所有WEKA的聚类器都可用。
3.6评价
•TrainingSetMaker- 将数据集设置为训练集。
•TestSetMaker- 将数据集设置为测试集。
•CrossValidationFoldMaker- 将任何数据集,训练集或测试集拆分为折叠。
•TrainTestSplitMaker- 将任何数据集,训练集或测试集分成训练集和测试集。
•ClassAssigner- 将一个列指定为任何数据集,训练集或测试集的类。
•ClassValuePicker- 选择一个类值作为“正向”类。这在生成ROC样式曲线的数据时很有用(请参阅下面的ModelPerformanceChart和示例4.2)。
•ClassifierPerformanceEvaluator- 评估批处理训练/测试分类器的性能。
•IncrementalClassifierEvaluator- 评估渐进训练分类器的性能。
•ClustererPerformanceEvaluator- 评估批处理训练/测试聚类器的性能。
•PredictionAppender- 将分类符预测附加到测试集。对于离散类问题,可以附加预测的类标签或概率分布。
3.7可视化
•DataVisualizer - 可以弹出面板以在单个大型二维散点图中可视化数据的组件。•ScatterPlotMatrix- 可以弹出包含一组小散点图的面板的组件(点击一个小图标弹出一个大散点图)。
•AttributeSummarizer- 可以弹出包含直方图图矩阵的面板的组件 - 输入数据中的每个属性一个。
•ModelPerformanceChart- 可以弹出用于可视化阈值(即ROC样式)曲线的面板的组件。
•TextViewer- 用于显示文本数据的组件。可以显示数据集,分类性能统计等。
•GraphViewer- 可以弹出面板以可视化基于树的模型的组件。
•StripChart- 组件,可以弹出一个面板,显示滚动的数据绘图(用于查看增量分类器的在线性能)。