OpenMLDB Meetup No.7 回顾 | OpenMLDB＋AutoX：整合自动特征工程，拥抱高效机器学习

第四范式开发者社区

已于 2023-01-20 11:59:39 修改

阅读量259

点赞数

文章标签：人工智能开源时序数据库数据库

于 2022-12-07 10:07:48 首次发布

本文链接：https://blog.csdn.net/weixin_48409843/article/details/128215385

版权

OpenMLDB Meetup No.7 回顾

会议内容

OpenMLDB 社区于 2022年10月29日举行了第七期 meetup，会议相关视频及资料如下：

OpenMLDB PMC core member 卢冕，以《开源机器学习数据库 OpenMLDB：线上线下一致的生产级特征平台》为题，为大家重点介绍了 OpenMLDB 社区 10月的工作进展。

视频链接: https://www.zhihu.com/zvideo/1570865332234706945
链接：https://pan.baidu.com/s/1whJ7SR7YGw0E-2HH52wnjA
提取码：open

第四范式高级科学家蔡恒兴，给大家介绍了表数据场景下自动机器学习的相关核心技术以及相应的开源产品 AutoX，让希望能够低门槛使用人工智能技术的朋友看到可以期待的未来。

视频链接：https://www.zhihu.com/zvideo/1570865733248196608
链接：https://pan.baidu.com/s/1LHndaYCH-GbKXc87jo93Uw
提取码：open

来自伊利诺伊大学的 OpenMLDB 社区贡献者徐鹏程，围绕"OpenMLDB 整合自动特征工程" 课题，为观众讲解 AutoFE 的流程原理，展示 AutoX 特征工程在 OpenMLDB 中的作用，并带来精彩的现场演示。

视频链接：https://www.zhihu.com/zvideo/1570865680102121472
链接：https://pan.baidu.com/s/1zIo_swMA3RH4caek2f9oHg
提取码：open

讨论交流——OpenMLDB

Q1: 假如应用场景下走 spark 难度较大，是否可以绕过 spark 做批处理？这样的使用场景吞吐量如何？

A1: OpenMLDB 0.6.4 版本正好做了最新的优化升级，可以满足“不使用 spark 跑批”的需求。现在的 OpenMLDB 支持在线 batch 模式，用户可以把 spark 完全丢掉，用在线引擎跑批。不过这样操作需要注意控制数据量，因为我们的在线 batch 模式默认使用内存，资源消耗较多，可扩展性比起 spark 依然存在差距。如果只做自学习、做批量跑批，完全可以承担。

Q2: 模型要上线的话，固化模型支持哪些格式？

A2: OpenMLDB 专注特征部分，本身不处理模型。我们会把处理特征生产的大宽表直接喂给下游的模型。模型一般使用大家比较熟悉的第三方开源软件，如 LightBGM、XGBoost 等。所以模型格式取决于后续对接的框架，而不再 OpenMLDB 的考虑范围。

Q3: 如何部署 OpenMLDB 可以支持资源动态扩容，保证服务的高可用？OpenMLDB 能否和 K8S 结合呢，这些内容有没有相关的操作介绍呀？

A3: OpenMLDB 本身支持动态扩容，可以随意增加物理机，通过扩容操作做水平扩容。

OpenMLDB 是一个分布式系统，在多数条件下都支持高可用。在 OpenMLDB 在线模块架构的文章介绍中有如何保证高可用的相关原理介绍。

关于 OpenMLDB 和 K8S 的结合，目前 OpenMLDB 离线引擎已经适配成功，但在线引擎还未做适配整合，后续会考虑。

如果用户有生产上线的需求，为了服务的稳定性，我们还是建议部署在物理机上。

关于动态扩容可以查看：

http://openmldb.ai/docs/zh/main/maintain/scale.html

在线模块架构参考：
http://openmldb.ai/docs/zh/main/reference/arch/online_arch.html

Q4: 部署OpenMLDB需要的硬件资源（如CPU、内存）有没有相关的参考呢？

A4: 可以参考这篇文章：OpenMLDB 线上引擎资源需求预估模型，助你快速预估资源消耗

Q5: autox.fit_transform() 做的特征工程，如何与 OpenMLDB 结合保证线上线下特征的一致性？

A5: OpenMLDB 和 AutoX 的整合更多是借鉴了 AutoX 算法，在 OpenMLDB 外部设置了一个自动生成 SQL 的 AutoFE 模块。可以理解为，只要把 AutoX 生成的 SQL 给到 OpenMLDB，后续的所有操作流程和原本保持一致即可。只是 SQL 的开发者由数据科学家变成了 AutoFE 模块，而后续的线上线下一致性通过 OpenMLDB 来保证。