编者注:文中超链接如果不能访问可以点击“阅读原文”访问本文原页面;敬请查看2019年9月23-26日纽约Strata数据大会完整日程安排。
几年前我们开始发布文章(参见本文末尾的“相关资源”),了解数据团队开始接受更多机器学习(ML)项目时所面临的挑战。在此过程中, 我们描述了一个新的工作角色/岗位:机器学习工程师,其专注于创建数据产品,并使数据科学在生产环境中发挥作用,这一角色在两年前开始在旧金山湾区出现。当时,没有任何流行的工具可以解决机器学习落地团队所面临的问题。
大约10个月前,Databricks发布了MLflow,这是一个用于管理机器学习开发的新开源项目(完全披露利益相关:Ben Lorica是Databricks的顾问)。我们认为,由于缺乏明确的开源竞品替代方案,MLflow有很大的机会吸引用户使用,事实证明情况确实如此。在相对较短的时间内,MLflow在GitHub上获得了超过3,300颗星,来自40多家公司有80多名工程师成为了代码贡献者。最重要的是,超过200家公司正在使用MLflow。
那么,为什么这个新的开源项目会引起数据科学家和机器学习工程师的共鸣呢?回想一下机器学习项目的关键属性:
与目标是满足功能参数的传统软件不同,在机器学习中,我们的目标是优化指标。
质量不仅取决于代码,还取决于数据,优化方法,定期更新和重新训练。
参与机器学习的人通常希望尝试新的库,算法和数据源 – 因此,必须能够将这些新组件投入生产环境。
MLflo