数据集搜索正在成为研究和工业中的一项关键能力:它刺激了许多新的应用,从丰富的现实世界现象分析到改进机器学习模型。最近在该领域的研究探索了一类新的数据驱动查询:查询由数据集组成,并从大量相关数据集中检索。本文研究了一种特定类型的数据驱动查询,通过数值数据关系支持关系数据扩充:给定一个输入查询表,找到既可以与它连接,又包含与查询中的列相关的列的top-k表。本文提出一种新的哈希方案,允许构建基于草图的索引来支持高效的相关表搜索。所提出的方法是有效和高效的,并实现了更好的权衡,与最先进的解决方案相比,显著提高了排名精度和召回率。
A Sketch-based Index for Correlated Dataset Search
最新推荐文章于 2024-09-26 20:16:36 发布
本文探讨了在数据集搜索中的新进展,提出了一种利用数值数据关系支持关系扩充的查询方法,通过哈希和草图索引实现高效搜索。与现有解决方案相比,该方法显著提高了排名精度和召回率,对研究和工业应用具有重要意义。
摘要由CSDN通过智能技术生成