背景
在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。这种情况,通常我们的解法是,将异常的字符洗掉,下面来介绍几种常见的处理异常字符的方法。
问题描述
定位
如下图,可以看到“异常name”和“正常name”的 length值 不同,多了个不可见字符,但是我们并不能看出来啥。后期做数据处理或数据展示可能成为一个难以定位的问题。
SELECT
name as 异常name,
LENGTH(name) as 异常name长度,
'北京' as 正常name,
LENGTH('北京') as 正常name长度
from tbl1
where name RLIKE '北京';
结果:
小技巧
- 我们可以通过