Accelerating Machine Learning Inference with Probabilistic Predicates使用概率谓词加速机器学习推理,sigmod2018

本文提出概率谓词(PPs)的概念,用于加速处理包含昂贵用户定义函数(UDF)的机器学习推理查询。PPs是非结构化输入上的二进制分类器,能在查询开始时过滤数据,降低查询成本。通过多种PP构造技术和模型选择,实现了在不同精度需求下的过滤速率。文章介绍了如何将PPs集成到复杂查询中,并在大规模数据集上进行了实验,证明使用PPs可以实现最高10倍的查询加速。
摘要由CSDN通过智能技术生成


Abstract

经典查询优化技术(包括谓词下推)在机器学习推理查询中使用有限,因为从非结构化输入中提取关系列的用户定义函数(UDF)通常非常昂贵;查询谓词将始终滞留在这些UDF后面如果它们恰好需要UDF生成的关系列。在这项工作中,我们演示了构造和应用概率谓词来过滤不满足查询谓词的数据blob的情况;此类过滤针对不同的目标精度进行了参数化。此外,为了支持复杂的谓词并避免每查询的训练,我们增加了基于成本的查询优化器来选择具有简单概率谓词适当组合的计划。在大数据集群上对几种机器学习工作负载进行的实验表明,查询处理可提高多达10倍。

谓词下推:将过滤表达式尽可能移动至靠近数据源的位置,以使真正执行时能直接跳过无关的数据。
其中谓词即返回boolean值(true、false)的函数,或是隐式转换为bool的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS。
参考:
https://blog.csdn.net/EdwardWong_/article/details/105970779
https://blog.csdn.net/baichoufei90/article/details/85264100

1、Introduce

关系数据平台正越来越多地用于分析诸如非结构化文本,图像或视频之类的标签。这些系统中的查询始于应用用户定义的函数(UDF)从Blob中提取关系列。考虑以下示例,查找红色的SUV:
在这里插入图片描述
其中,VehDector从每个视频帧中提取边界框,F1和F2从每个边界框中提取相关特征,C1和C2是使用提取的特征识别车辆类型和颜色的分类器。对于此类查询,传统的查询优化技术(例如:谓词下推)在这里没有用,因为不会将谓词下推到生成谓词列的UDF下。在上边的例子中,必须先执行VehDetector,才可以得到vehType、vehColor。所以,即使谓词具有较低的选择性(eg:每100个图像中只有一个图像中有SUV),所有的UDF都必须处理每个视频帧。即查询计划如Figure1所示:
在这里插入图片描述
试图通过将机器学习组件与相关部分分离来简化问题。例如,数据平台外生的某些组件可能会预处理blob并实现所有必要的列;然后将传统的查询优化器应用于其余的查询。这种方法在某些情况下可能是可行的,但通常是不可行的。在许多工作负载中,查询很复杂,并且使用许多不同类型的特征提取器和分类器;预先计算所有可能的选项将非常昂贵。此外,由于许多具有提取特征的列可能永远不会被使用,因此预计算对于临时查询将是浪费的。例如,在监视场景中,临时查询通常会获取交通事件的追溯视频证据。尽管有些查询可能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值