DataCleaner---5.7 模式工具

5.7 模式工具

模式工具(Pattern Finder)是DataCleaner中比较先进但也非常流行的分析器之一。
以下是Pattern finder配置面板的屏幕截图:
pattern_finder
从屏幕截图中我们可以看到模式工具具有以下配置属性:

属性(Property)说明(Description)
组列(Group column)允许您定义模式组列,通过模式组列,您可以将已标识的模式分离到单独的buckets/groups中。例如,假设您想检查客户的电话号码是否一致。如果您的客户是国际客户,则应按国家/地区列进行分组,以确保识别的电话模式与来自不同国家/地区的电话模式是否匹配。
区分文本大小写(Discriminate text case)定义是否根据文本大小写进行区分(即视为不同的模式部分)。如果为true,“DataCleaner” 和"datacleaner" 将被视为不同模式的实例,如果为false,它们将在同一模式中匹配
区分负数(Discriminate negative numbers)解析数字时,此属性定义是否应区分负数和正数。
区分小数(Discriminate decimals)解析数字时,此属性定义是否应将十进制数字与整数区分开来。
启用混合令牌(Enable mixed tokens)定义是否将同时包含字母和数字的标记分类为"mixed",或者作为两个单独的标记。混合标记用问号(’?’)表示符号。这是更重要的配置属性之一。例如,如果启用了混合令牌(默认),那么所有这些值都将与相同的模式匹配:foo123、123foo、foobar123、foo123bar。如果未启用混合标记,则只有foo123和foobar123将匹配(因为123foo和foo123bar表示字母和数字标记的不同组合)。
忽略重复空格(Ignore repeated spaces)定义是否基于空白量进行区分。
大写模式扩展大小(Upper case patterns expand in size)定义大写标记是否自动“扩展”大小。可扩展性指的是,如果一个候选者拥有相同类型的令牌,但大小不同,那么找到的模式是否会包含匹配项。大写字符的默认配置为false(即ABC与ABCD不匹配)。
小写模式扩展大小(Lower case patterns expand in size)定义小写标记是否自动“扩展”大小。与大写可扩展性一样,此属性指的是如果候选具有相同类型的标记,但大小不同,则找到的模式是否包含匹配项。小写字符的默认配置为true(即“abc”与“abc”不匹配)。两个"expandability"配置属性中的默认值意味着,例如,名称模式识别是有意义的:‘James’ 和 ‘John’ 都属于同一个模式(“aaaaaa”),而“McDonald”属于不同的模式(“aaaaaa”)。
预定义token名称(Predefined token name)预定义tokens使定义一个token成为可能,以便使用固定的值列表或正则表达式来查找和分类。通常,如果这些值包含要手动为其定义匹配类别的其他部分,则使用此选项。用’Predefined token name’属性定义此类类别的名称。
预定义标记正则表达式(Predefined token regexes)定义一些字符串值和/或正则表达式,用于将值与(预定义的)标记类别相匹配。
小数分隔符(Decimal separator)分析数字时使用的十进制分隔符
千位分隔符(Thousand separator)千位分隔符,用于分析数字
减号标志(Minus sign)在分析数字时使用的减号字符

点这儿返回DataCleaner中文文档主目录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值