AnalyticDB-V: A Hybrid Analytical Engine Towards Query Fusion for Structured and Unstructured Data
随着非结构化数据(如图像、视频和音频)的爆炸式增长,非结构化数据分析在现实世界的应用中广泛存在。许多数据库系统开始纳入非结构化数据分析以满足这种需求。然而,在大多数系统中,对非结构化数据和结构化数据的查询往往被视为不相关的任务,混合查询(即同时涉及两种数据类型)尚未得到完全支持。
本文提出了一种由阿里巴巴开发的混合分析引擎AnalyticDB-V (ADBV)来满足这种新兴需求。ADBV提供了一个接口,允许用户通过将非结构化数据转换为高维向量来表达使用SQL语义的混合查询。ADBV采用lambda框架,结合近似最近邻搜索(approximate nearest neighbor search, ANNS)技术的优点,支持混合数据分析。此外,还提出了一种新的人工神经网络算法,以提高对表示大量非结构化数据的大规模向量的准确性。在ADBV中,所有的人工神经网络算法都被实现为物理算子,同时,提出了精度感知的基于代价的优化技术来识别有效的执行计划。在公开数据集和内部数据集上的实验结果表明了ADBV的优越性能和有效性。ADBV已成功部署在阿里巴巴云平台上,为各种实际应用提供混合查询处理服务。
1.SYSTEM DESIGN
ADBV基于阿里巴巴公司的AnalyticDB [53] OLAP数据库系统,该系统基于两个基本组件:Pangu[2]和Fuxi[55]。Pangu[2]提供可靠和永久的分布式存储,Fuxi[55]提供资源管理和计算任务调度。ADBV增强了AnalyticDB,以合并向量并