116 深入解析`QueryFusionRetriever`类中的异步查询方法 llamaindex.core.retrievers

最新推荐文章于 2024-09-29 11:04:15 发布

需要重新演唱

最新推荐文章于 2024-09-29 11:04:15 发布

阅读量614

点赞数 24

分类专栏： llamindex文章文章标签： LLM RAG

本文链接：https://blog.csdn.net/xycxycooo/article/details/141671868

版权

llamindex文章专栏收录该内容

162 篇文章 6 订阅

订阅专栏

深入解析`QueryFusionRetriever`类中的异步查询方法

在现代信息检索系统中，异步处理技术是提升系统性能的关键。QueryFusionRetriever类提供了多个方法来处理异步查询，包括_run_nested_async_queries、_run_async_queries和_run_sync_queries。本文将详细解析这些方法，帮助您更好地理解其工作原理及实际应用。

前置知识

在深入代码之前，我们需要了解以下几个关键概念：

异步处理（Async Processing）：允许程序在等待某些操作完成时继续执行其他任务，提高效率。
查询包（QueryBundle）：一个包含查询信息的封装对象。
节点（Node）：表示检索结果中的一个文档或信息片段。
节点评分（NodeWithScore）：包含节点及其评分的封装对象。

代码解析

`_run_nested_async_queries`方法

def _run_nested_async_queries(
        self, queries: List[QueryBundle]
    ) -> Dict[Tuple[str, int], List[NodeWithScore]]:
    tasks, task_queries = [], []
    for query in queries:
        for i, retriever in enumerate(self._retrievers):
            tasks.append(retriever.aretrieve(query))
            task_queries.append((query.query_str, i))

    task_results = run_async_tasks(tasks)

    results = {}
    for query_tuple, query_result in zip(task_queries, task_results):
        results[query_tuple] = query_result

    return results

方法解析

功能：该方法通过嵌套异步任务的方式，对多个查询进行并行处理。
参数：queries，一个包含QueryBundle实例的列表，表示要执行的查询。
返回值：一个字典，键为(str, int)元组，值为NodeWithScore列表，表示每个查询的结果。

处理流程

初始化任务列表：
```
tasks, task_queries = [], []
```
tasks用于存储异步任务，task_queries用于存储查询信息。

生成异步任务：

for query in queries:
    for i, retriever in enumerate(self._retrievers):
        tasks.append(retriever.aretrieve(query))
        task_queries.append((query.query_str, i))

遍历每个查询和检索器，生成异步任务并记录查询信息。

执行异步任务：
```
task_results = run_async_tasks(tasks)
```
使用run_async_tasks函数执行所有异步任务，并获取结果。

整理结果：

results = {}
for query_tuple, query_result in zip(task_queries, task_results):
    results[query_tuple] = query_result

将查询结果与查询信息对应起来，存储到结果字典中。

`_run_async_queries`方法

async def _run_async_queries(
    self, queries: List[QueryBundle]
) -> Dict[Tuple[str, int], List[NodeWithScore]]:
    tasks, task_queries = [], []
    for query in queries:
        for i, retriever in enumerate(self._retrievers):
            tasks.append(retriever.aretrieve(query))
            task_queries.append((query.query_str, i))

    task_results = await asyncio.gather(*tasks)

    results = {}
    for query_tuple, query_result in zip(task_queries, task_results):
        results[query_tuple] = query_result

    return results

方法解析

功能：该方法通过异步IO的方式，对多个查询进行并行处理。
参数：queries，一个包含QueryBundle实例的列表，表示要执行的查询。
返回值：一个字典，键为(str, int)元组，值为NodeWithScore列表，表示每个查询的结果。

处理流程

初始化任务列表：
```
tasks, task_queries = [], []
```
tasks用于存储异步任务，task_queries用于存储查询信息。

生成异步任务：

for query in queries:
    for i, retriever in enumerate(self._retrievers):
        tasks.append(retriever.aretrieve(query))
        task_queries.append((query.query_str, i))

遍历每个查询和检索器，生成异步任务并记录查询信息。

执行异步任务：
```
task_results = await asyncio.gather(*tasks)
```
使用asyncio.gather函数执行所有异步任务，并获取结果。

整理结果：

results = {}
for query_tuple, query_result in zip(task_queries, task_results):
    results[query_tuple] = query_result

将查询结果与查询信息对应起来，存储到结果字典中。

`_run_sync_queries`方法

def _run_sync_queries(
    self, queries: List[QueryBundle]
) -> Dict[Tuple[str, int], List[NodeWithScore]]:
    results = {}
    for query in queries:
        for i, retriever in enumerate(self._retrievers):
            results[(query.query_str, i)] = retriever.retrieve(query)

    return results

方法解析

功能：该方法通过同步方式，对多个查询进行顺序处理。
参数：queries，一个包含QueryBundle实例的列表，表示要执行的查询。
返回值：一个字典，键为(str, int)元组，值为NodeWithScore列表，表示每个查询的结果。

处理流程

初始化结果字典：
```
results = {}
```
results用于存储查询结果。

执行同步查询：

for query in queries:
    for i, retriever in enumerate(self._retrievers):
        results[(query.query_str, i)] = retriever.retrieve(query)

遍历每个查询和检索器，执行同步查询并将结果存储到结果字典中。

实际应用示例

假设我们需要对多个查询进行异步处理：

from some_module import QueryFusionRetriever, QueryBundle
import asyncio

# 初始化QueryFusionRetriever实例
fusion_retriever = QueryFusionRetriever(...)

# 定义查询
queries = [QueryBundle("query1"), QueryBundle("query2")]

# 使用异步查询方法
results = asyncio.run(fusion_retriever._run_async_queries(queries))

# 输出生成的查询
for query_tuple, query_result in results.items():
    print(f"Query: {query_tuple}, Results: {query_result}")