MaxCompute 中如何处理异常字符

在MaxCompute中,当遇到数据同步后的脏数据,如含有不可见字符导致显示问题,可以使用trim()、replace()函数或正则表达式进行数据清洗。通过Unicode编码转换工具识别异常字符,然后使用SQL的函数进行替换或删除,确保数据的准确性和展示效果。
摘要由CSDN通过智能技术生成

背景

在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。这种情况,通常我们的解法是,将异常的字符洗掉,下面来介绍几种常见的处理异常字符的方法。

问题描述

定位

如下图,可以看到“异常name”和“正常name”的 length值 不同,多了个不可见字符,但是我们并不能看出来啥。后期做数据处理或数据展示可能成为一个难以定位的问题。

SELECT 
  name as 异常name,
  LENGTH(name) as 异常name长度,
  '北京'  as 正常name,
  LENGTH('北京') as 正常name长度
from tbl1 
where name RLIKE '北京';

结果:

小技巧

  • 我们可以通过
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值