5.7 模式工具
模式工具(Pattern Finder)是DataCleaner中比较先进但也非常流行的分析器之一。
以下是Pattern finder配置面板的屏幕截图:
从屏幕截图中我们可以看到模式工具具有以下配置属性:
属性(Property) | 说明(Description) |
---|---|
组列(Group column) | 允许您定义模式组列,通过模式组列,您可以将已标识的模式分离到单独的buckets/groups中。例如,假设您想检查客户的电话号码是否一致。如果您的客户是国际客户,则应按国家/地区列进行分组,以确保识别的电话模式与来自不同国家/地区的电话模式是否匹配。 |
区分文本大小写(Discriminate text case) | 定义是否根据文本大小写进行区分(即视为不同的模式部分)。如果为true,“DataCleaner” 和"datacleaner" 将被视为不同模式的实例,如果为false,它们将在同一模式中匹配 |
区分负数(Discriminate negative numbers) | 解析数字时,此属性定义是否应区分负数和正数。 |
区分小数(Discriminate decimals) | 解析数字时,此属性定义是否应将十进制数字与整数区分开来。 |
启用混合令牌(Enable mixed tokens) | 定义是否将同时包含字母和数字的标记分类为"mixed",或者作为两个单独的标记。混合标记用问号(’?’)表示符号。这是更重要的配置属性之一。例如,如果启用了混合令牌(默认),那么所有这些值都将与相同的模式匹配:foo123、123foo、foobar123、foo123bar。如果未启用混合标记,则只有foo123和foobar123将匹配(因为123foo和foo123bar表示字母和数字标记的不同组合)。 |
忽略重复空格(Ignore repeated spaces) | 定义是否基于空白量进行区分。 |
大写模式扩展大小(Upper case patterns expand in size) | 定义大写标记是否自动“扩展”大小。可扩展性指的是,如果一个候选者拥有相同类型的令牌,但大小不同,那么找到的模式是否会包含匹配项。大写字符的默认配置为false(即ABC与ABCD不匹配)。 |
小写模式扩展大小(Lower case patterns expand in size) | 定义小写标记是否自动“扩展”大小。与大写可扩展性一样,此属性指的是如果候选具有相同类型的标记,但大小不同,则找到的模式是否包含匹配项。小写字符的默认配置为true(即“abc”与“abc”不匹配)。两个"expandability"配置属性中的默认值意味着,例如,名称模式识别是有意义的:‘James’ 和 ‘John’ 都属于同一个模式(“aaaaaa”),而“McDonald”属于不同的模式(“aaaaaa”)。 |
预定义token名称(Predefined token name) | 预定义tokens使定义一个token成为可能,以便使用固定的值列表或正则表达式来查找和分类。通常,如果这些值包含要手动为其定义匹配类别的其他部分,则使用此选项。用’Predefined token name’属性定义此类类别的名称。 |
预定义标记正则表达式(Predefined token regexes) | 定义一些字符串值和/或正则表达式,用于将值与(预定义的)标记类别相匹配。 |
小数分隔符(Decimal separator) | 分析数字时使用的十进制分隔符 |
千位分隔符(Thousand separator) | 千位分隔符,用于分析数字 |
减号标志(Minus sign) | 在分析数字时使用的减号字符 |