基于dbt的机器学习：流畅的过程衔接

最新推荐文章于 2024-09-09 23:28:21 发布

98加满

最新推荐文章于 2024-09-09 23:28:21 发布

阅读量328

点赞数

文章标签：数据挖掘 python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_68144934/article/details/130017618

版权

本文探讨了数据工程与机器学习（ML）协作中出现的问题，尤其是在dbt环境中。通过引入SQL工作流进行ML，如MindsDB、Continual.ai和fal.ai等工具，可以弥合两者之间的差距，简化模型维护和验证。文章以一个项目为例，展示了如何通过dbt实现ML模型的构建和维护，从而改善团队协作和长期可维护性。

摘要由CSDN通过智能技术生成

DBT 继承了我们在 SQL 上的工作，在数据工程师、数据分析工程师和任何数据角色之间构建了一个优雅、通用的、操作友好的环境。工具和工作流的统一在数据组织内为不同团队之间创建了互操作性。

就像在接力赛中一样，在过程的各个阶段都有明确的交接点和明确的所有权。但截止目前，还有一个环节仍然痛苦且不确定：机器学习（ML）工程师和数据分析工程师之间的衔接。

根据我的经验，ML工程和数据分析工程之间的初始协作工作流程开始时很强大，但最终在维护阶段变得混乱。这最终导致项目变得无法使用和被遗忘。

在本文中，我们将探讨 ML 工程和数据分析工程之间的现实接力棒，并强调哪里容易出问题。ML工程和数据分析工程工作流程中存在所有权问题。幸运的是，现代数据堆栈MDS使接力棒传递更加顺畅。这篇文章将引导您完成最近的一个项目，在那里我能够亲眼看到这些系统如何协同工作，以提供为长期准确性和可维护性而构建的模型。

一、以前的工作衔接是什么样子的？

作为一名数据分析工程师，我与一位 ML 工程师配对，以分析确定公司客户流失趋势，以及我们可以采取哪些措施来防止这种情况。我们努力寻找一个解决方案，并向客户业务主管展示，1 个月后我们满怀希望完成了方案，但最新的数据更改导致模型漂移，因此 ML 工程师找到一些问题供数据工程师/数据分析工程师修复...循环往复，3个月后，没有人记得我们这样做了。这听起来熟悉吗࿱

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
基于dbt的机器学习：流畅的过程衔接

DBT 继承了我们在 SQL 上的工作，在数据工程师、数据分析工程师和任何数据角色之间构建了一个优雅、通用的、操作友好的环境。工具和工作流的统一在数据组织内为不同团队之间创建了互操作性。就像在接力赛中一样，在过程的各个阶段都有明确的交接点和明确的所有权。但截止目前，还有一个环节仍然痛苦且不确定：机器学习（ML）工程师和数据分析工程师之间的衔接。根据我的经验，ML工程和数据分析工程之间的初始协作工作流程开始时很强大，但最终在维护阶段变得混乱。这最终导致项目变得无法使用和被遗忘。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。