hive中灵活运用正则表达式处理字段

灵活运用正则表达式


hive中经常会需要处理字符串,本篇文章就来聊聊如何灵活运用正则表达式来出来数据;
正则表达式中的符号介绍
^ 匹配输入字符串的开始位置。
$ 匹配输入字符串的结束位置。
[…] 字符集合。匹配所包含的任意一个字符。例如, ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。
[^…] 负值字符集合。匹配未包含的任意字符。例如, ‘[^abc]’ 可以匹配 “plain” 中的’p’。
p1|p2|p3 匹配 p1 或 p2 或 p3。例如,‘z|food’ 能匹配 “z” 或 “food”。’(z|f)ood’ 则匹配 “zood” 或 “food”。

  • 匹配前面的子表达式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
  • 匹配前面的子表达式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。
    {n} n 是一个非负整数。匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。

hive中可是使用正则表达式相关的函数有:
REGEXP:与like字符类似,功能更强大;
REGEXP_REPLACE:与replace函数类似,功能更强大;

创建如下表:regexp_test(string1);
字段值如下:
string1
16857845258
13856895874
13647148565
15825487565
12453654
12306
95548
95547
4004844258
a124s14d25
sq457w451
12345@
1574@1577
10271741@qq.com
158876@163.com
010-88625458
{1:2,3:5}
ten123c5e7nt

首先来说说regexp的用法:
如果想要找出表中的手机号码、邮箱、电话号码,这时候我们用like就基本很难实现了,like欠缺的是数字匹配、字符匹配还有字符长度的问题,当然你可以用无数个_来标识个数,但是很困难也很容易出错,这时用正则可以很简单的匹配这些;
手机号码:第一位数为1,第二位为3/5/8,之后九位就是随意排布了,正则表达式为:’^1[358][0-9]{9}’;
SELECT string1
from regexp_test
where string1 regexp ‘^1[3|5|8][1-9]{9}’

结果:
序号 string1
1 13856895874
2 13647148565
3 15825487565

regexp_replace函数:
把字符串中的数字全部换成空值:
SELECT string1,regexp_replace(string1,’[1-9]’,’’)
from regexp_test;
结果:
1-9数字替换为空值
日常中字符的处理掌握正则以后就将变得很简单了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值