CMU：基于LLM的RAG系统实践研究

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144108637

在这里插入图片描述

📖标题：Retrieval-Augmented Generation for Domain-Specific Question Answering: A Case Study on Pittsburgh and CMU
🌐来源：arXiv, 2411.13691

🌟摘要

🔸我们设计了一个检索增强生成（RAG）系统，为大型语言模型提供相关文档，以回答有关匹兹堡和卡内基梅隆大学（CMU）的特定领域问题。我们使用贪婪抓取策略提取了1800多个子页面，并采用了混合注释过程，结合了手动和Mistralgenerated问答对，实现了0.7625的注释者间一致性（IAA）得分。我们的RAG框架集成了BM25和FAISS检索器，并通过重新分级器进行了增强，以提高文档检索的准确性。
🔸实验结果表明，RAG系统明显优于非RAG基线，特别是在时间敏感和复杂的查询中，F1得分从5.45%提高到42.21%，召回率为56.18%。本研究展示了RAG系统在提高答案精度和相关性方面的潜力，同时确定了文档检索和模型训练中需要进一步优化的领域。

🛎️文章简介

🔸研究问题：设计并实现一个针对匹兹堡和卡内基梅隆大学特定领域的问答系统，以提供准确和详细的答案。
🔸主要贡献：论文设计和实现了一个针对特定领域的检索增强生成系统，并通过实验验证了其在提高回答准确性和相关性方面的有效性。

📝重点思路

🔸数据标注：论文采用了手动标注和自动生成相结合的方法来生成多样化和代表性的问答对（QA pairs）。手动标注的165个问答对作为测试基础，而其余的1302个问答对则通过Mistral模型在少样本学习（few-shot learning）和微调的基础上自动生成。
🔸数据质量评估：通过计算标注者间一致性（Inter-Annotator Agreement, IAA）来评估数据质量，IAA得分为0.7625，表明数据标注质量较高。
🔸RAG框架设计：选择了7B的Mistral模型作为基础LLM，并结合相关文档进行提示（prompt），采用少样本学习来生成所需结果。同时，结合BM25和FAISS检索器，并引入重排序模块（re-ranker）以提高检索文档的相关性。
🔸向量数据库创建：将文档加载并转换为Markdown格式，使用RecursiveCharacterTextSplitter将文档分割成小块，并通过sentence-transformers生成嵌入向量，最后使用FAISS进行向量相似性搜索。
🔸实验设置：在超参数调优过程中，调整了生成新token的最大数量、每个检索器（bm25和FAISS）检索的文档数量、重排序后的文档数量等关键参数。评估了使用重排序器、少样本学习和集成检索器（BM25 + FAISS）对模型性能的影响。

🔎分析总结

🔸基线模型（无RAG）：基线模型在没有检索增强的情况下表现较差，EM为0.00%，F1得分为5.45%，表明模型在没有外部文档辅助时无法生成准确的答案。
🔸RAG无重排序或少样本学习：引入RAG但无重排序和少样本学习时，EM为2.00%，F1得分为19.75%，表明检索增强对模型性能有积极影响。
🔸少样本学习的影响：应用少样本学习显著提高了模型性能，当少样本学习与集成检索器和重排序器结合时，F1得分达到42.21%，是所有配置中最高的。
🔸文档重排序器：文档重排序器略微降低了模型的召回能力，但提高了精确度，表明更小、更简洁的文档块对模型精确度有益，但可能导致召回率下降。
🔸集成检索器：使用集成检索器（BM25 + FAISS）进一步提高了精确度和召回率，最佳配置下，EM为20.25%，F1得分为42.21%。
🔸时间敏感性问题：RAG模型在回答时间敏感性问题时表现优于非RAG模型，能够提供更准确和相关的答案