hive|hadoop|大数据
文章平均质量分 56
周同学来了
一名专业的闲鱼
放假就会写一些硬核干货,欢迎讨论。
展开
-
Hive正则匹配查询基础大全(好文收藏)
前置知识1.常见匹配符号. :匹配所有单个字符,除了换行符(Linux 中换行是 \n,Windows 中换行是 \r\n)^regex : 正则必须匹配字符串开头regex$ :正则必须匹配字符串结尾[abc] : 复选集定义,匹配字母 a 或 b 或 c[abc][vz] :复选集定义,匹配字母 a 或 b 或 c,后面跟着 v 或 z[^abc] :当插入符 ^ 在中括号中以第一个字符开始显示,则表示否定模式。此模式匹配所有字符,除了 a 或 b 或 c[a-d1-7] :范围匹配,原创 2021-06-24 22:26:02 · 4300 阅读 · 0 评论 -
Hive的lateral view [outer] explode()教程(好文收藏)
写在前面的话,hive的lateral view explode(map/array)函数,常常用于日常的代码中。本篇主要讲解被忽略的outer的作用。===lateral view 与 lateral view outer的区别两者的区别:主要就是当explode函数里传入的数据是否为null,lateral view explode(null) temp as id 时,结果不显示任何数据**(注意是指其他字段的数据也不返回**);lateral view outer explode(null)原创 2021-06-15 21:11:49 · 6336 阅读 · 7 评论 -
Hive的必常用的系统函数(好文收藏)
标题hive系统函数介绍1.常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp(“2020-10-28”,‘yyyy-MM-dd’);from_unixtime:将时间戳转为日期格式select from_unixtime(1603843200);current_date:当前日期select current_date;current_timestamp:当前的日期加时间sele原创 2021-06-06 09:26:46 · 664 阅读 · 0 评论 -
本文一次性说清HIVE的with cube & with rollup & grouping sets用法
表结构CREATE TABLE test (f1 string, f2 string, f3 string, cnt int) ROW FORMAT delimited FIELDS TERMINATED BY '\t' stored AS textfile; LOAD DATA LOCAL inpath '/data/logs/suiyingli/tmp/test.data'...转载 2021-06-04 17:22:07 · 584 阅读 · 0 评论 -
实际生产中:Hive 合并小文件(强烈建议此法)
背景:实际项目中,小文件的产生会影响hadoop集群的性能;过度使用namenode的内存等;启动过多的map任务,拉低整体Job的运行效率等等弊端原创 2021-05-31 14:25:09 · 1405 阅读 · 2 评论 -
Hive表的非压缩text格式转成ORC+snappy
背景:hive表A,由于创建是text格式的,随着时间历史,该表数据量巨大,急需对该表进行治理方案一:把text格式转成ORC格式,可以大大减低数据存储量z原创 2021-05-28 15:51:03 · 1303 阅读 · 5 评论
分享