大数据
文章平均质量分 59
周同学来了
一名专业的闲鱼
放假就会写一些硬核干货,欢迎讨论。
展开
-
Hive正则匹配查询基础大全(好文收藏)
前置知识1.常见匹配符号. :匹配所有单个字符,除了换行符(Linux 中换行是 \n,Windows 中换行是 \r\n)^regex : 正则必须匹配字符串开头regex$ :正则必须匹配字符串结尾[abc] : 复选集定义,匹配字母 a 或 b 或 c[abc][vz] :复选集定义,匹配字母 a 或 b 或 c,后面跟着 v 或 z[^abc] :当插入符 ^ 在中括号中以第一个字符开始显示,则表示否定模式。此模式匹配所有字符,除了 a 或 b 或 c[a-d1-7] :范围匹配,原创 2021-06-24 22:26:02 · 4300 阅读 · 0 评论 -
Hive的lateral view [outer] explode()教程(好文收藏)
写在前面的话,hive的lateral view explode(map/array)函数,常常用于日常的代码中。本篇主要讲解被忽略的outer的作用。===lateral view 与 lateral view outer的区别两者的区别:主要就是当explode函数里传入的数据是否为null,lateral view explode(null) temp as id 时,结果不显示任何数据**(注意是指其他字段的数据也不返回**);lateral view outer explode(null)原创 2021-06-15 21:11:49 · 6336 阅读 · 7 评论 -
硬核!一文搞懂Flink的checkPoint的exactly-once(好文收藏)
Flink的checkPoint原理1.知识前置Flink检查点算法:检查点分界线(Checkpoint Barrier)Flink 的检查点算法用到了一种称为分界线(barrier)的特殊数据形式,用来把一条流上数据按照不同的检查点分开。2.正文开始*2.1.*JobManager 会向每个 source 任务发送一条带有新检查点 ID 的消息,通过这种方式来启动检查点,检查点分界线由 source 算子注入到常规的数据流中,它的位置是限定好的,不能超过其他数据,也不能被后面的数据超过。*2原创 2021-06-14 09:19:44 · 628 阅读 · 0 评论
分享