“从上个月开始,第四范式将OpenMLDB项目的56万行代码全部开源。到目前,我们收获到了非常多来自开发者的反馈,以及来自开源社区贡献者的鼓励。在开源一个多月的时间里,我们的开源技术组件OpenMLDB在GitHub上获得了1700个Star(业界常以1000个Star作为优质开源项目的衡量标准),前Cloudera机器学习CTO Tristan Zajonc也发文表示,OpenMLDB在技术上领先业界AI和机器学习的infra层数年。”
近日,第四范式技术副总裁、基础技术负责人郑曌在全球开源技术峰会GOTC 2021主论坛上介绍了第四范式开源项目的进展。
今年6月,第四范式宣布开源机器学习数据库OpenMLDB、AI操作系统内核OpenAIOS两大技术组件。同时也开放了开箱即用的“AIOS社区版”,内置两大开源组件,以免费的方式提供给开发者使用。
众所周知,数据质量仍然是制约AI技术发展的最大瓶颈。无论是传统的事务型数据库、分析型数据库还是传统数仓,都无法面向机器学习提供正确高效的数据供给,这些也直接导致了AI开发者仍有超过90%的精力花在数据建设上。
第四范式机器学习数据库OpenMLDB聚焦在解决数据闭环(Closed-loop)、线上线下一致性(Consistency)、数据时序正确(Chronology) 等数据应用3大核心问题上。以数据时序为例,机器学习是一个基于历史经验,对未知信息进行预测的系统。然而,传统数据库难以区分哪些数据为历史经验,哪些为未知信息,从而导致了数据穿越(用未来的数据预测过去)这样的错误发生。OpenMLDB提供了自动实时数据的拼接,数据泄露检测等功能,从而避免在AI开发中数据错误的使用。
在性能及成本方面,OpenMLDB面向机器学习数据库的访、存、算等高IOPS环节,通过对数据库逻辑执行计划、物理执行计划进行了分层优化,实现了高并行度的调度规划策略,相比传统数据库实现了10倍的性能提升。此外,OpenMLDB基于非易失性存储的算力优化特性,将整体的TCO降低了58%,该成果也被收录进入2021数据库顶级会议VLDB。
OpenMLDB受到前Cloudera机器学习CTO Tristan Zajonc及多位开源KOL的认可
“感谢各位社区的小伙伴们一直以来的帮助与支持,第四范式是开源社区的一个新人,未来不管是OpenMLDB还是OpenAIOS,我们的社区会做持续的迭代和演进,能够和社区的同行们不断去解决AI落地过程中遇到的痛点问题。我们也希望通过在技术上的迭代,能够形成更多的创新。”郑曌表示。
在此欢迎更多开发者加入第四范式社区,复制以下GitHub链接,即可下载第四范式开源机器学习数据库OpenMLDB及开源人工智能操作系统内核OpenAIOS。
OpenMLDB Github:
https://github.com/4paradigm/OpenMLDB
OpenAIOS Github:
https://github.com/4paradigm/openaios-platform
点击「阅读原文」或复制以下链接,即刻登录AIOS社区版!
openaios.4paradigm.com