亚马逊云科技:OpenSearch稀疏向量语义检索

关键字: [亚马逊云科技中国峰会2024, open search, 稀疏向量语义编码, 语义检索性能, 索引资源消耗, 深度学习模型, 倒排索引计算]

本文字数: 1300, 阅读完需: 6 分钟

导读

在这次演讲中,演讲者介绍了OpenSearch的稀疏向量语义检索技术。该技术通过深度学习模型将文本等数据对象转化为稀疏向量,然后将这些稀疏向量写入Lucene倒排索引中进行高效检索。与传统的KNN算法相比,稀疏向量语义检索能够在保证高相关性的同时减少资源消耗、提升检索速度。演讲者还介绍了OpenSearch团队训练的两个SOTA模型(biencoder和document only),并展示了这些模型在BEIR数据集上的优异表现。最后,演讲者演示了一个包含100万商品文档的在线Demo网站,用于体验OpenSearch支持的各种语义检索方法。

演讲精华

以下是小编为您整理的本次演讲的精华,共1000字,阅读时间大约是5分钟。

在当今深度学习时代,过去常用的搜索方案如BM25正在向向量语义搜索演进。通过深度学习模型,我们可以将数据对象(包括文本、图片等)转化为稠密向量,然后进行KNN(K-近邻)搜索。然而,在KNN搜索中,我们面临着性能和召回率之间的权衡问题。侧重召回率的算法如HNSW,其资源占用(如内存占用)往往较高,而如果我们优化算法以减少资源消耗,往往会导致召回率的快速下降。这似乎是KNN算法难以兼得的一个困境。

有没有一种语义检索方法能够同时保证高相关性和低资源消耗,提升检索速度?OpenSearch提出了稀疏向量语义编码的解决方案。传统语义检索方案是通过模型将数据对象编码为稠密向量,然后写入KNN索引。而OpenSearch的稀疏编码则是通过模型将数据对象(如文本)转化为稀疏向量,其形式与词向量相同,都是一些token及其对应权重。然后,我们就可以将这些稀疏向量直接写入Lucene的倒排索引中,而Lucene倒排索引的计算效率极高,OpenSearch在使用Lucene倒排索引方面拥有深厚的技术积累。

那么,稀疏编码是如何进行语义检索的呢?我们可以通过一个简单的例子加以说明。假设查询为”worst visor new york now”,文档为”new york is raining currently”。虽然这两者在语义上是高度相关的,但对于BM25搜索来说,只有”new”和”york”两个词可以匹配,且由于词频相同,每个词的权重也相同,这显然是不合理的。而对于稀疏编码,由于它是通过模型生成权重,可以根据语义重要性赋予不同权重,并自动扩展出语义相近的token。例如,它可以将”visor”与”raining”对应,“now”与”currently”对应,生成的JSON对象就是该文档的权重列表。

稀疏编码有两种模式:biencoder模式和document only模式。biencoder模式是对文档和查询均进行模型推理,因此可以更好地进行匹配。而document only模式则只对文档进行推理,对于查询只需用tokenizer分词即可。document only模式是OpenSearch主推的模式,它追求极致的速度和效率,无需进行模型推理,且相较于biencoder模式,它所遍历的倒排索引数量更少,因此效率极高。同时,它保留了绝大部分的搜索精度,在实验中,相较于biencoder模式,它只损失了3%的NDCG分数。

OpenSearch团队在HuggingFace上开源了两个模型:一个biencoder模型和一个document only模型,这两个模型目前是稀疏编码架构中的SOTA(State-of-the-art,最先进)性能模型。在BEIR数据集(主要是一个zero-shot数据集)上进行的精度评测显示,OpenSearch的两个模型的精度均远超BM25和TaskSB模型。

在性能评测方面,OpenSearch对BM25和document only模式进行了评估。评测结果显示,无论文本量从100万增长到800万,BM25和document only模式的P90端到端时延(从发出纯文本请求到收到最终回复的时延)都是随着文本量线性增长的。BM25每增长100万文本量,时延增长1.4毫秒,而document only模式则增长2.9毫秒,二者的性能已经非常接近。OpenSearch的目标是希望将来document only模式能够直接替代BM25。值得注意的是,即使在800万文档量下,document only模式的P90时延也只有28毫秒,而28毫秒对于KNN算法来说,可能还不够将文本编码成向量的时间。

在资源消耗方面,OpenSearch在880万文本量下进行了评估,评测了索引大小和内存占用。结果显示,无论是biencoder还是document only模式,它们占据的磁盘空间均远小于KNN索引,虽然比BM25略高。而在内存占用上,BM25、document only和biencoder模式均远小于KNN模型。

最后,OpenSearch团队构建了一个包含100万商品文档的演示网站,用户可以在该网站上体验BM25、稀疏编码、KNN和跨模态搜索等语义搜索方法。

总的来说,OpenSearch的稀疏向量语义编码方案结合了深度学习语义理解能力和Lucene倒排索引的高效性,在保持较高精度的同时,大幅提升了性能并降低了资源消耗,是一种具有前景的语义搜索解决方案。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技中国峰会2024上,演讲者阐述了深度学习时代下向量语义搜索的优势和 knn 算法在性能与召回率之间的权衡挑战。

28c37256f5c4dba55c58052ba4180bd1.jpeg

亚马逊云科技中国峰会2024上,演讲者介绍了一种新的稀疏编码技术,可以提高语义检索的相关性和速度,并降低资源消耗。

ca1a4f0f73c85ac47d3437b89157e011.jpeg

亚马逊云科技中国峰会2024上,演讲者介绍了亚马逊搜索引擎的两种模式:biencoder模式和document only模式,后者追求极致的速度和效率,同时保留了绝大部分搜索精度。

63863431f10d2577b42fbf56a507b894.jpeg

亚马逊云科技中国峰会2024演讲中,演讲者展示了稀疏编码搜索的性能评测结果,比较了bm25和document only模式在不同文本量下的端到端时延表现。

a43c2979a2f46491c018ae754b52923a.jpeg

亚马逊云科技中国峰会2024上,演讲者展示了亚马逊在稀疏编码资源消耗方面的评测结果,证明了其技术优势。

1781bb99b92e0be219aae6fd3a2141cb.jpeg

亚马逊云科技中国峰会2024上展示了一个神经稀疏编码演示网站,包含100万商品文档,支持BM25、稀疏编码、KNN和跨模态搜索等语义搜索方法。

d205d3e367687cc0a7df855a19ae71ce.jpeg

总结

随着深度学习时代的到来,传统搜索方案如BM25正在向向量语义搜索演进。亚马逊云科技推出了一种新的稀疏向量语义编码方法,旨在提供高相关性、低资源消耗和高速度的语义检索。该方法通过深度学习模型将文本等数据对象转化为稀疏向量,并将其写入Lucene倒排索引中进行高效检索。与传统KNN算法相比,稀疏编码在保留大部分搜索精度的同时,极大降低了内存占用和时延。亚马逊云科技在开源模型和性能评测方面进行了大量工作,并推出了一个演示网站,供用户体验该技术在商品搜索等场景中的应用。稀疏向量语义编码被视为未来替代BM25的有力方案,值得广泛关注和应用。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

  • 27
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值