开源机器学习数据库OpenMLDB v0.4.0产品介绍

本文根据卢冕在『OpenMLDB Meetup No.1』中的演讲整理而成。

开源机器学习数据库OpenMLDB:为企业提供全栈FeatureOps解决方案

今天的演讲围绕OpenMLDB给企业提供全栈FeatureOps解决方案展开,同时对OpenMLDB的主要特性和新发布0.4.0版本的新功能进行介绍。

首先介绍一下我自己,我叫卢冕,博士毕业于香港科技大学计算机系,目前在第四范式担任系统架构师,主要负责数据库团队和高性能计算团队,同时也是开源项目OpenMLDB的主要研发负责人,目前主要专注于数据库系统和异构计算。
在这里插入图片描述

今天的分享主要包含三个内容:

  1. 背景介绍:AI工程化落地的数据和特征的挑战。
  2. OpenMLDB为企业提供全栈FeatureOps解决方案:为什么要做
    FeatureOps,为什么要去有OpenMLDB,OpenMLDB的一些主要特性是什么。
  3. OpenMLDB现在的开源状况、发展状况以及0.4.0版本的特性。
    在这里插入图片描述

【01 | AI工程化落地的数据和特征的挑战】

数据侧的技术演进为基于人工智能的决策提供了可能

今天数据的大规模快速演进,为人工智能的决策提供了可能。因为10年、20年前,对于企业来说数据量可能只是百G级别的,数据规模在今天来看其实是非常少的,主要依赖于人工录入去做数据分析。到今天这个数据规模就已经变得非常大了,可能达到数百PB级别的数据,这种超大的数据量为我们做人工智能决策提供了可能,同时也带来了一个非常大的挑战——怎么去做数据治理
在这里插入图片描述

正确、高效的 AI 数据和特征供给成为数据侧的新挑战

企业在数据治理上花费了高达95%的时间和精力,数据治理包括数据收集、数据清理、数据处理、数据计算、数据供给。今天在业界有非常多的数据治理方案,例如Hadoop、MySQL、MEMSAL、Oracle、DeltaLAKE,这些基础架构软件都是构建AI系统的一个非常重要的组成部分。但是这些软件到底是否已经解决了AI工程化落地的问题呢?其实我们今天看到这些现有的方案,很多时候并没有完全解决 AI工程化的数据问题。
在这里插入图片描述
MLOps 的完整生命周期

为了理解AI工程化落地数据问题到底是什么,我们先来介绍一些背景信息。先引出一个最近非常火的名词叫做MLOps,MLOps覆盖了机器学习从开发到上线到运维整个生命周期的所有工具集和运维手段。

把MLOps拆开来看就得到这张图,它分为离线开发和线上服务两个分离的流程,为什么会有这两个流程?我们注意到,两个流程里面high level的组件其实都是一样的,包括DataOps、FeatureOps、 ModelOps,但是这两个流程还是有非常不一样的点。

人工智能的开发流程按照这个图来,先要有一个离线开发,做离线训练的流程,等到模型训练已经达到要求了,就转为线上服务。这个线上服务又叫做Inference,在ModelOps里面是做推理。

这两个流程虽然有一些共同点,但是在算法的实现上,在落地工程落地的要求上,其实都有非常大的差别。在真正地做到 MLOps实践企业落地的时候,经常会把这两个流程分开看。在这两个流程里面,可以看到有DataOps、FeatureOps、 ModelOps,在离线开发这一块,DataOps负责数据采集和存储

FeatureOps是我今天要重点覆盖的部分,它主要包含了特征计算、特征存储、线上实时特征计算以及特征服务这几个环节。ModelOps覆盖的是线下离线部分的模型训练和线上的推理。

简单来讲,这6大组件构成了MLOps的整体闭环。还有一个环节 ProductionOps,是企业真正做人工智能工程化落地时一个非常重要的环节。做线上服务的时候,会非常看重这些企业级的核心,包括高可用可扩缩容、升级、监控,都是非常必要的,所以 ProductionOps作为一个子模块,被包含在MLOps里面。
在这里插入图片描述
FeatureOps - 实时特征计算

FeatureOps最主要的功能是什么?它最主要涵盖的功能就是特征工程,举个做实时特征计算的例子,例子中还包含了一个离线的特征计算。离线的特征计算和实时特征计算在总体的逻辑上是类似的,区别主要体现在实现的要求上,这里我们主要关注实时的特征计算。

举一个性化搜索的例子,比如小李同学,在某个时间点想买洗衣机,去搜索洗衣机,触发了搜索行为以后,后面整个特征计算会做什么?首先进来的实时行为特征,只是这三个原始的特征,就是 User ID,data以及他在搜索东

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值