【闲聊】大数据开发实习生每天在干什么

最新推荐文章于 2024-04-27 20:35:19 发布

和风与影

最新推荐文章于 2024-04-27 20:35:19 发布

阅读量1.4k

点赞数

分类专栏：大数据文章标签： big data 大数据

本文链接：https://blog.csdn.net/weixin_45545090/article/details/125074664

版权

76 篇文章 8 订阅

订阅专栏

之前写了大数据开发全流程和四种岗位选择，没看过的可以看一下：
大数据开发全流程
 大数据开发四种岗位选择
今天就来谈谈实习具体在干什么。

入职，开通各种权限，各种账号（比如公司邮箱，跑任务的 yarn 队列也需要申请权限，ES 等集群也需要读取和写入的权限，不再赘述）。
刚开始有几天学习，包括企业文化，隐私，安全（数据安全和人生安全），反腐，基础知识学习，还有数据开发入职前两周必须学完《Hive 编程指南》。感兴趣的同学可以提前学习，面试的时候被问到最近在看什么书，说出来这一本应该也算加分项吧。可以点击最后面的链接关注公众号阅读获取笔记，公众号回复 803 获取原书 PDF。
每个人分配一个 mentor，每天和 mentor 语音，他会给你讲课，不懂的也可以问，所以进步比较快。
每天要写工作汇报，大家都能看到，所以你经常会看到别的实习生晚上 11 点、12 点还在发工作汇报，说好的中国人不卷中国人呢…
熟悉业务。毕竟数仓是贴近业务的。
工作。
开会。每天好几个会吧。

工作又分好几块：

oncall：就是查 bug，线上出问题了会找到你。怎么查这个 bug 呢，这就是追溯，可以后面写文章详细讨论。
重构：以前的表换了，比如 dwd 层一张表换成了另一张表，你下游的 dws、app 是不是都得变。这里就会产生数据一致性问题，面试经常问数据一致性，这里后面详细讨论。
开发迭代需求：在已有的需求基础上迭代，修改一些原来已经存在的代码。这里就需要你读懂前人的代码逻辑…
开放新需求：这个工作周期长，难度大，需要和 PM、QA、RD、UI 等等很多人合作。这里后面细说。
回溯：这个工作占比很大，比如你产出了 app 层的表，修改了其中的口径（可以理解为字段的计算逻辑），那么修改完后是不是的重跑历史数据，这并不是点一下运行就能完事的。后面再详细讨论。
同步：怎么把 Hive 的数据推到 Elasticsearch 或者 ClickHouse 让线上能够使用？

今天先把问题抛出了，后面慢慢填坑吧。
欢迎关注公众号。
HiveQL 的查询语句
在这里插入图片描述