HIVE数仓项目,我和项目经理点灯熬油把项目做起来,HIVE的难点解析

分到的项目组用hive批量数据统计分析

记得4年前我的项目经理是一位充满魅力的职业女性李姐,集美貌与才华于一身。她的外貌端庄优雅,五官精致,皮肤白皙,眼神明亮而深邃。她的着装得体大方,但是脾气非常的大,动不动就对我们几个干活的,指手画脚。
我们背后都说她提前道了更年期,怪不得找不到男朋友。
项目是一家银行的金融风控:甲方要求用Hive数仓,用于风险管理,如信用评分、欺诈检测、交易监控等,通过对大量交易数据的分析,及时发现异常行为。
我的任务是利用Hive的SQL功能,基于原始数据计算出各类信用评分特征,如用户交易频率、信用历史、违约率等。
但是用户的信用交易历史数据,没有找到相应的数据源,我让李姐帮我找甲方要一下, 李姐听到马上怼了一句:自己写SQL查询,你难道不会吗?
我也气了,“查了权限不够,你当我是hacker吗?” 自己想办法,她只说了这么一句,下班后和她在什么佳缘网站的男士相亲去了。
同事王乐乐给我说:通过计算用户的首次交易日期和最近一次交易日期,再计算这两个日期之间的时间差,然后看看有没有违约
我靠,这个算到猴年马月去了 第二天,李姐满带笑容的来到了办公室,鬼才知道昨天晚上发生了什么!
我来到李姐旁边支支吾吾的说,要权限,查询信用记录的DATA, 此时的李姐神采奕奕,高兴的答应了,“好,最初下午给你”

就这样开发就进展开来, 真不知道,大龄sheng女相qin后,还真么好脾气,看来有戏。

项目过半,一天李姐一脸严肃地找到我,告知我们面临着一个紧急的任务,必须在短时间内完成一个关键的HDFS不支持原子性问题,夜晚的办公室格外安静,只有电脑屏幕的光芒和键盘的敲击声交织在一起。我们全神贯注地盯着屏幕直到眼睛开始酸涩,脑袋也变得昏沉。
接着可我的工作遇到了挑战:甲方的数据分布不均匀(有多处异地容灾和零散database)导致处理任务处理时间过长
李姐让我使用动态分区和调整分桶数量!我知道动态分区和是一种优化手段,它允许Hive根据查询中的WHERE子句自动创建和填充分区。
但是这个项目的数据分布太多了,我真的不知道有多少数据在where。 “你笨呀,你不会
SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict;”
设置为nonstrict来允许所有分区都是动态的。
我按照她说的做了,还可以,不愧是李姐,大龄程序员李姐,高!
快下班时候,她提醒我,调整分桶数量可能需要重新计算数据的哈希值,这可能会消耗较多的资源,你要注意点, 感谢姐!
Hive作业的监控和故障排查耗时这问题,我和王乐乐,都乐不起来,它太耗费我们的时间了。 “
使用ClouderaManager进行集群监控,利用Hive的日志分析工具查询一下” 李姐不懈的给我们说, “好,谢了,改天你结婚,我多随礼些呀,李姐”
王乐乐感谢的说道,毕竟他一个大专非科班出身,来到这个公司,如果不是李姐看他可怜,
不会被招过来。李姐也是知道他是某培训班出来了,什么白马黑驴的培训训练,多的是。 王乐乐的工作配置Kerberos认证,使用Apache
Ranger进行细粒度的权限控制,这个比较简单些,他有一次粗心大意了,配置错了一个参数,结果导致一部分数据泄露,这下甲方可气炸肺了。
硬是说我们的系统不安全。
结果还是给李姐摆平了,不知道她用的是什么高超的技术还是什么其他的方法,反正到我们离开项目组,这个数据泄露问题没有再出现过。
最近一次见到李姐,发现她胖了,不敢细问她是不是marry了, 我们这些码农,先写好代码吧!

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九张算数

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值