DataCleaner---5.7 模式工具

最新推荐文章于 2024-05-15 09:49:54 发布

lover_leo

最新推荐文章于 2024-05-15 09:49:54 发布

阅读量325

点赞数

分类专栏： DataCleaner 文章标签： java 运维大数据

本文链接：https://blog.csdn.net/weixin_43899418/article/details/113583650

版权

DataCleaner 专栏收录该内容

87 篇文章 3 订阅

订阅专栏

5.7 模式工具

模式工具(Pattern Finder)是DataCleaner中比较先进但也非常流行的分析器之一。
以下是Pattern finder配置面板的屏幕截图：
pattern_finder
从屏幕截图中我们可以看到模式工具具有以下配置属性：

属性(Property)	说明(Description)
组列(Group column)	允许您定义模式组列，通过模式组列，您可以将已标识的模式分离到单独的buckets/groups中。例如，假设您想检查客户的电话号码是否一致。如果您的客户是国际客户，则应按国家/地区列进行分组，以确保识别的电话模式与来自不同国家/地区的电话模式是否匹配。
区分文本大小写(Discriminate text case)	定义是否根据文本大小写进行区分（即视为不同的模式部分）。如果为true，“DataCleaner” 和"datacleaner" 将被视为不同模式的实例，如果为false，它们将在同一模式中匹配
区分负数(Discriminate negative numbers)	解析数字时，此属性定义是否应区分负数和正数。
区分小数(Discriminate decimals)	解析数字时，此属性定义是否应将十进制数字与整数区分开来。
启用混合令牌(Enable mixed tokens)	定义是否将同时包含字母和数字的标记分类为"mixed"，或者作为两个单独的标记。混合标记用问号(’?’)表示符号。这是更重要的配置属性之一。例如，如果启用了混合令牌（默认），那么所有这些值都将与相同的模式匹配：foo123、123foo、foobar123、foo123bar。如果未启用混合标记，则只有foo123和foobar123将匹配（因为123foo和foo123bar表示字母和数字标记的不同组合）。
忽略重复空格(Ignore repeated spaces)	定义是否基于空白量进行区分。
大写模式扩展大小(Upper case patterns expand in size)	定义大写标记是否自动“扩展”大小。可扩展性指的是，如果一个候选者拥有相同类型的令牌，但大小不同，那么找到的模式是否会包含匹配项。大写字符的默认配置为false（即ABC与ABCD不匹配）。
小写模式扩展大小(Lower case patterns expand in size)	定义小写标记是否自动“扩展”大小。与大写可扩展性一样，此属性指的是如果候选具有相同类型的标记，但大小不同，则找到的模式是否包含匹配项。小写字符的默认配置为true（即“abc”与“abc”不匹配）。两个"expandability"配置属性中的默认值意味着，例如，名称模式识别是有意义的：‘James’ 和 ‘John’ 都属于同一个模式（“aaaaaa”），而“McDonald”属于不同的模式（“aaaaaa”）。
预定义token名称(Predefined token name)	预定义tokens使定义一个token成为可能，以便使用固定的值列表或正则表达式来查找和分类。通常，如果这些值包含要手动为其定义匹配类别的其他部分，则使用此选项。用’Predefined token name’属性定义此类类别的名称。
预定义标记正则表达式(Predefined token regexes)	定义一些字符串值和/或正则表达式，用于将值与（预定义的）标记类别相匹配。
小数分隔符(Decimal separator)	分析数字时使用的十进制分隔符
千位分隔符(Thousand separator)	千位分隔符，用于分析数字
减号标志(Minus sign)	在分析数字时使用的减号字符

点这儿返回DataCleaner中文文档主目录

lover_leo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataCleaner---5.7 模式工具

5.7 模式工具模式工具(Pattern Finder)是DataCleaner中比较先进但也非常流行的分析器之一。以下是Pattern finder配置面板的屏幕截图：从屏幕截图中我们可以看到模式工具具有以下配置属性：属性(Property)说明(Description)组列(Group column)允许您定义模式组列，通过模式组列，您可以将已标识的模式分离到单独的buckets/groups中。例如，假设您想检查客户的电话号码是否一致。如果您的客户是国际客户，则应按国家
复制链接

扫一扫