周同学来了
码龄5年
关注
提问 私信
  • 博客:21,853
    问答:149
    22,002
    总访问量
  • 8
    原创
  • 2,221,900
    排名
  • 2
    粉丝
  • 0
    铁粉

个人简介:一名专业的闲鱼 放假就会写一些硬核干货,欢迎讨论。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 目前就职: 维沃移动通信有限公司
  • 加入CSDN时间: 2019-11-09
博客简介:

weixin_45857425的博客

查看详细资料
个人成就
  • 获得35次点赞
  • 内容获得16次评论
  • 获得83次收藏
创作历程
  • 9篇
    2021年
成就勋章
TA的专栏
  • hive
    3篇
  • 大数据
    3篇
  • hive|hadoop|大数据
    6篇
  • Flink
    1篇
  • IDEA
    1篇
  • Lombok
    1篇
  • hive数据治理
兴趣领域 设置
  • 大数据
    hadoophiveetl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive正则匹配查询基础大全(好文收藏)

前置知识1.常见匹配符号. :匹配所有单个字符,除了换行符(Linux 中换行是
,Windows 中换行是 \r
)^regex : 正则必须匹配字符串开头regex$ :正则必须匹配字符串结尾[abc] : 复选集定义,匹配字母 a 或 b 或 c[abc][vz] :复选集定义,匹配字母 a 或 b 或 c,后面跟着 v 或 z[^abc] :当插入符 ^ 在中括号中以第一个字符开始显示,则表示否定模式。此模式匹配所有字符,除了 a 或 b 或 c[a-d1-7] :范围匹配,
原创
发布博客 2021.06.24 ·
4301 阅读 ·
3 点赞 ·
0 评论 ·
25 收藏

Hive的lateral view [outer] explode()教程(好文收藏)

写在前面的话,hive的lateral view explode(map/array)函数,常常用于日常的代码中。本篇主要讲解被忽略的outer的作用。===lateral view 与 lateral view outer的区别两者的区别:主要就是当explode函数里传入的数据是否为null,lateral view explode(null) temp as id 时,结果不显示任何数据**(注意是指其他字段的数据也不返回**);lateral view outer explode(null)
原创
发布博客 2021.06.15 ·
6336 阅读 ·
19 点赞 ·
7 评论 ·
33 收藏

硬核!一文搞懂Flink的checkPoint的exactly-once(好文收藏)

Flink的checkPoint原理1.知识前置Flink检查点算法:检查点分界线(Checkpoint Barrier)Flink 的检查点算法用到了一种称为分界线(barrier)的特殊数据形式,用来把一条流上数据按照不同的检查点分开。2.正文开始*2.1.*JobManager 会向每个 source 任务发送一条带有新检查点 ID 的消息,通过这种方式来启动检查点,检查点分界线由 source 算子注入到常规的数据流中,它的位置是限定好的,不能超过其他数据,也不能被后面的数据超过。*2
原创
发布博客 2021.06.14 ·
628 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

IDEA之Lombok注解不生效解决方案(好文收藏)

1.前提检查IDEA是否已安装Lombok插件,若没安装,点击安装之后重启IDEA即可2.在java实体类前添加注解遇到问题:在实体类上已经添加@Data、@Builder注解,但是该类的get/set方法报错,提示没有这些方法。解决方案1:按照图示方法,把对钩打上,在点击OK。然后重新去调方法就可以了注意在补个漏:如果是maven工程的话,可以在尝试在pom文件中添加如下依赖<!--lomback 插件依赖--> <dependency>
原创
发布博客 2021.06.12 ·
5699 阅读 ·
3 点赞 ·
2 评论 ·
1 收藏

hive的Json解析大集合(好文收藏)

前文:日常生产环境中,对于埋点上报数据中有json格式的数据,需要解析json格式的字符串里面的字段和数值.对于这种需求,hive系统内置解析json格式的函数.测试:select REGEXP_replace('[{"id":"001","name":"zhangsan","address":"shenzheng"},{"id":"002","name":"zhangsan","address":"shenzheng"}]','\\[|\\]','');结果:{"id":"001","name"
原创
发布博客 2021.06.07 ·
812 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

Hive的必常用的系统函数(好文收藏)

标题hive系统函数介绍1.常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp(“2020-10-28”,‘yyyy-MM-dd’);from_unixtime:将时间戳转为日期格式select from_unixtime(1603843200);current_date:当前日期select current_date;current_timestamp:当前的日期加时间sele
原创
发布博客 2021.06.06 ·
664 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

本文一次性说清HIVE的with cube & with rollup & grouping sets用法

表结构CREATE TABLE test (f1 string, f2 string, f3 string, cnt int) ROW FORMAT delimited FIELDS TERMINATED BY '\t' stored AS textfile; LOAD DATA LOCAL inpath '/data/logs/suiyingli/tmp/test.data'...
转载
发布博客 2021.06.04 ·
584 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

实际生产中:Hive 合并小文件(强烈建议此法)

背景:实际项目中,小文件的产生会影响hadoop集群的性能;过度使用namenode的内存等;启动过多的map任务,拉低整体Job的运行效率等等弊端
原创
发布博客 2021.05.31 ·
1405 阅读 ·
1 点赞 ·
2 评论 ·
2 收藏

Hive表的非压缩text格式转成ORC+snappy

背景:hive表A,由于创建是text格式的,随着时间历史,该表数据量巨大,急需对该表进行治理方案一:把text格式转成ORC格式,可以大大减低数据存储量z
原创
发布博客 2021.05.28 ·
1303 阅读 ·
1 点赞 ·
5 评论 ·
5 收藏

请问大家开发大数据项目,HDFS用来存储文件,javaweb负责展示,一般是把文件的关联信息存在哪里呀,是hive还是mysql

答:

元数据信息存在MySQL中,谢谢

回答问题 2020.04.04