DBT 继承了我们在 SQL 上的工作,在数据工程师、数据分析工程师和任何数据角色之间构建了一个优雅、通用的、操作友好的环境。工具和工作流的统一在数据组织内为不同团队之间创建了互操作性。
就像在接力赛中一样,在过程的各个阶段都有明确的交接点和明确的所有权。但截止目前,还有一个环节仍然痛苦且不确定:机器学习(ML)工程师和数据分析工程师之间的衔接。
根据我的经验,ML工程和数据分析工程之间的初始协作工作流程开始时很强大,但最终在维护阶段变得混乱。这最终导致项目变得无法使用和被遗忘。
在本文中,我们将探讨 ML 工程和数据分析工程之间的现实接力棒,并强调哪里容易出问题。ML工程和数据分析工程工作流程中存在所有权问题。幸运的是,现代数据堆栈MDS使接力棒传递更加顺畅。这篇文章将引导您完成最近的一个项目,在那里我能够亲眼看到这些系统如何协同工作,以提供为长期准确性和可维护性而构建的模型。
一、以前的工作衔接是什么样子的?
作为一名数据分析工程师,我与一位 ML 工程师配对,以分析确定公司客户流失趋势,以及我们可以采取哪些措施来防止这种情况。我们努力寻找一个解决方案,并向客户业务主管展示,1 个月后我们满怀希望完成了方案,但最新的数据更改导致模型漂移,因此 ML 工程师找到一些问题供数据工程师/数据分析工程师修复...循环往复,3个月后,没有人记得我们这样做了。这听起来熟悉吗