概要
在上节中使用到的两种方法都是在原查询的基础上,利用LLM对其进行内容上的扩充,有利于检索相关性文档,本节在此基础上,阐述Cross-encoder re-ranking(交叉编码器重新排序)对于检索内容结果的正面影响。
Cross-encoder re-ranking
如下图所示,Cross-encoder re-ranking的策略本质上时筛选更为相关的文档。首先从矢量数据库中检索出n个相关文档块,再将这n个文档块重新排序,筛选最为相近的几个文件块。
那么为什么这样效果会变好?这个和embeddings-based retrieval看起来很相似,只不过在Cross-encoder re-ranking中多增添了一道重新检索的过程,这样相比,embeddings-based retrieval似乎更为快速。在这里,我给出的答案是:
- 在上节中提到,仅仅依靠语义上的相似度来确定与原查询内容相关块,这样的操作往往得不到满意的结果,可能有一种情况是相关性的文档根本没有检索到,比如在embeddings-based retrieval中假设距离最近前5名,而实际相关的文档却在5名开外,这种策略就难以检索完整。Cross-encoder re-ranking就是将范围放大(n=20,30,40…),再从里面进行排序,确保无“漏网之鱼”。来看下面的示例:
本节依旧选择2022年微软的报告作为外部数据:
embedding_function = SentenceTransformerEmbeddingFunction()
chroma_collection = load_chroma(filename='microsoft_annual_report_2022.pdf', collection_name='microsoft_annual_report_2022', embedding_function=embedding_function)
chroma_collection.count()
将检索范围扩大至前10名:
query = "What has been the investment in research and development?"
results = chroma_collection.query(query_texts=query, n_results=10, include=['documents', 'embeddings'])
retrieved_documents = results['documents'][0]
for document in results['documents'][0]:
print(word_wrap(document))
print('')
接下来对其进行重新排序,但在这里,得分情况将不再按照之前的余弦距离作为评判标准,而是采用Cross-encoder,如下图所示:
每一个被检索的文档都会被用来与原查询计算得分:
from sentence_transformers import CrossEncoder
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
pairs = [[query, doc] for doc in retrieved_documents]
scores = cross_encoder.predict(pairs)
print("Scores:")
for score in scores:
print(score)
结果如下:
重新排序:
print("New Ordering:")
for o in np.argsort(scores)[::-1]:
print(o+1)
小结
在本节中,我们采用了Re-ranking 策略去提升检索文档的精确度,不难看出Re-ranking完全可以和扩展查询进行结合,以达到最好的效果。