2.3 向job中添加组件
有几种不同类型的组件可以添加到job中:
- Analyzers (分析器),这是最重要的组件。实际上,job要运行成功至少得有一个分析器(Analyze)(如果执行作业时没有添加分析器,DataCleaner将建议添加一个基本分析器,将输出保存到文件中)。分析器是一个组件,它检查它接收到的数据并生成结果或报告。大多数的数据分析都是分析器来创建的。
- Transformers(转换器),是用于在分析数据之前修改数据的组件。有时有必要提取一个值的一部分或将两个值组合起来,以便正确地了解特定的数据。在其他场景中,转换器可用于执行参考数据查找或其他相似的任务,并将操作结果放入job中的数据流中。转换器的结果是一组输出列。这些数据列列的工作方式与job中的常规数据列完全相同,只是它们在被具体化之前在流中一个比较前面的步骤。
- Filters (过滤器) 是在job中分割处理流的组件。一个过滤器将有许多可能的结果,根据过滤器的结果,一个特定的数据行可能由不同的子流处理。过滤器通常只是用来忽略数据分析中的某些行,例如空值或超出某范围的值。
这些组件都将在job图中显示为一个节点。双击组件(图形节点)将显示其配置对话框。
使用job区域左侧的各种菜单下各种细节的组件都可添加到你的job中。菜单在左侧的组件库中可用,或者拖拽到画布中的空白区域。有关特殊的transformers 和 filters的更多信息,请参阅Transform章节。
Analyzers 是使用“Analyze”菜单(在大多数情况下)添加到作业中的,但也可以使用“Write”菜单将输出保存到数据存储中。有关特定分析仪的更多信息,请参阅Analyze章节。