最近遇到了些数据清洗的问题,很多时候需要使用到模糊匹配,因此专门对Netezza中包含的正则函数进行了简单的整理。Netezza中包含的正则函数可以对字符进行模糊查找,替换,截取等,这里需要注意Netezza使用的是PCRE,即perl 兼容的正则表达式库,有些元字符并不支持,比如用于处理Unicode字符的“\u”,所以处理中文日文等时需要使用其它方法,例如使用元字符“\x”或者“\p”。Netezza常用函数通常包含以下参数:
- Input :指定正则函数处理的字符;
- Pattern :正则表达式;
- Replacement :使用该字符替换匹配pattern的字符;
- Start pos : 开始进行匹配的位置,默认为1;
- Reference: 指定匹配到的第几个字符,默认为1,替换时默认为0,表示替换
- flags: 可选参数,用于一些补充设置