【闲聊】大数据开发实习生每天在干什么

  之前写了大数据开发全流程和四种岗位选择,没看过的可以看一下:
大数据开发全流程
大数据开发四种岗位选择
今天就来谈谈实习具体在干什么。

  1. 入职,开通各种权限,各种账号(比如公司邮箱,跑任务的 yarn 队列也需要申请权限,ES 等集群也需要读取和写入的权限,不再赘述)。
  2. 刚开始有几天学习,包括企业文化,隐私,安全(数据安全和人生安全),反腐,基础知识学习,还有数据开发入职前两周必须学完《Hive 编程指南》。感兴趣的同学可以提前学习,面试的时候被问到最近在看什么书,说出来这一本应该也算加分项吧。可以点击最后面的链接关注公众号阅读获取笔记,公众号回复 803 获取原书 PDF。
  3. 每个人分配一个 mentor,每天和 mentor 语音,他会给你讲课,不懂的也可以问,所以进步比较快。
  4. 每天要写工作汇报,大家都能看到,所以你经常会看到别的实习生晚上 11 点、12 点还在发工作汇报,说好的中国人不卷中国人呢…
  5. 熟悉业务。毕竟数仓是贴近业务的。
  6. 工作。
  7. 开会。每天好几个会吧。

工作又分好几块:

  • oncall:就是查 bug,线上出问题了会找到你。怎么查这个 bug 呢,这就是追溯,可以后面写文章详细讨论。
  • 重构:以前的表换了,比如 dwd 层一张表换成了另一张表,你下游的 dws、app 是不是都得变。这里就会产生数据一致性问题,面试经常问数据一致性,这里后面详细讨论。
  • 开发迭代需求:在已有的需求基础上迭代,修改一些原来已经存在的代码。这里就需要你读懂前人的代码逻辑…
  • 开放新需求:这个工作周期长,难度大,需要和 PM、QA、RD、UI 等等很多人合作。这里后面细说。
  • 回溯:这个工作占比很大,比如你产出了 app 层的表,修改了其中的口径(可以理解为字段的计算逻辑),那么修改完后是不是的重跑历史数据,这并不是点一下运行就能完事的。后面再详细讨论。
  • 同步:怎么把 Hive 的数据推到 Elasticsearch 或者 ClickHouse 让线上能够使用?

今天先把问题抛出了,后面慢慢填坑吧。
欢迎关注公众号。
HiveQL 的查询语句
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值