自动化RAG端到端测评框架---RAGAS：核心思想解读与源代码部分解析

bp-bird person

已于 2025-02-04 23:17:27 修改

阅读量1.2k

点赞数 9

文章标签：语言模型 python

于 2025-02-04 23:16:17 首次发布

本文链接：https://blog.csdn.net/weixin_45404652/article/details/145446255

版权

本来觉得是一个简单的用LLM来生成评分的工作，但细看一下还是蛮有意思的。写了一些初级的内容，适合想要了解这一工作思想的朋友们。

官方网站：https://docs.ragas.io/en/latest/concepts/metrics/available_metrics/context_precision/

1. 忠实性

定义：如果答案中的主张可以从上下文`c(q)`中推断出来，那么答案`as(q)`就忠实于上下文`c(q)`。

为了估计忠实度，首先使用LLM提取一组语句S(as(q))，这一步的目的是将较长的句子分解成较短且重点更突出的断言。

通过下面的两个prompt得出。
第一段prompt
得出上面的结果后，调用这个

然后，再将检索到的上下文context，和statement一起给出，让模型来判断有多少statement是可以从context中得出的，来计算忠诚度。

最终忠实度得分 $F$ 的计算公式为 $F = ∣ V ∣/∣ S ∣$ ，其中 $∣ V ∣$ 是根据LLM得到支持的语句数，而 $∣ S ∣$ 是语句总数。

2. 答案相关性

定义：如果答案as(q)以适当的方式直接回答了问题，就认为答案as(q)是相关的。

为了估算答案相关性，对于给定的答案as(q)，促使LLM根据as(q)生成n个潜在问题qi，如下所示：

在这里插入图片描述

利用OpenAI API提供的文本嵌入ada-002模型获取所有问题的嵌入。对于每个qi，计算与原始问题q的相似度（q,qi），即相应嵌入之间的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bp-bird person

关注关注

9
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RAG知识库 Ragas效果评估框架

weixin_42357472的博客

12-16

132

context_recall：是否检索到了回答问题所需的所有相关信息，提供的回答正确地解决了问题并与真实情况一致，表明上下文精度和召回率很高。faithfulness：生成答案的事实准确性，得分为 0.75，表明尽管答案大部分是准确的，但可能存在细微的不完整之处。answer_relevancy：生成答案与问题的相关性。相关性得分非常高（0.995013），表明答案与问题高度相关。context_precision：检索到的上下文的准确度。用的langchain，使用的deepseek模型。

如何创建高质量的本地知识库增强大模型私域任务处理能力

andy20160103的博客

04-30

4270

受训练阶段和提问的表达方式等影响，大模型不能准确理解用户意图受训练数据和时效性影响，大模型无法回答领域知识，当我们需要了解除它们训练数据以外的具体知识时，往往会达不到要求对于第一个限制，开源基础模型的理解能力不断提升，例如已开源的qwen-72B刷榜各评测榜单，对使用者的提示能力要求进一步降低，且已有能力已满足多样性任务需求，适合直接部署使用。对于第二个限制，使用检索增强生成技术（RAG，Retrieval Augmented Generation）是目前一种经济可行的方案。

参与评论您还未登录，请先登录后发表或查看评论

中文RAG检索增强生成榜单出炉！仅有一家刚刚及格

04-15

2169

随着人工智能技术的快速发展，大型语言模型在处理复杂、开放领域的问题时，常常面临知识获取和更新的挑战。它们所依赖的训练数据可能有限且过时，无法覆盖所有领域的知识，导致生成的内容缺乏准确性和时效性。同时，在现实世界的应用场景中，用户期望获得最新、最准确的信息。正是在这样的背景下，RAG（检索增强生成）技术结合了检索和生成两种方法的优势应运而生。RAG通过利用外部知识库中的信息，为语言模型提供了更全面、...

使用 RAGAS 评测 RAG（检索增强生成）系统的完整流程和代码实现

最新发布

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

04-15

1000

以下是使用fill:#333;color:#333;color:#333;fill:none;准备测试数据运行RAG系统收集输出结果RAGAS指标计算可视化分析。

AI大模型 | RAG工程的评测方法：RAG评估方法、RAG 的关键指标和能力、RAG的评估框架

star_nwe的博客

10-04

1902

和独立评估就是对检索模块和生成模型分布评估。评估RAG检索模块性能的指标主要用于衡量系统（如搜索引擎、推荐系统或信息检索系统），即根据查询评估有效性。具体指标包括：命中率 (Hit Rate)、平均排名倒数 (MRR)、归一化折扣累积增益 (NDCG)、精确度 (Precision) 等。这块跟推荐系统的评价指标相同。检索结果中用户实际检索的实体词或者关键词所占的比例。是用来衡量返回结果的排名质量。MRR考虑了用户第一次遇到相关检索的排名；

Ragas 开源项目教程

gitblog_00979的博客

08-08

418

Ragas 开源项目教程 ragasEvaluation framework for your Retrieval Augmented Generation (RAG) pipelines项目地址:https://gitcode.com/gh_mirrors/ra/ragas 项目介绍 Ragas 是一个用于评估检索增强生成（RAG）管道的框架。RAG 是一类使用外部数据增强 LLM（大型语言模...

Ragas：开源的Retrieval Augmented Generation (RAG)评估框架

gitblog_09477的博客

09-13

488

Ragas：开源的Retrieval Augmented Generation (RAG)评估框架 ragas Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines ...

Ragas

AI工程化、开源分享、文档翻译、代码笔记

04-28

1831

一、关于 Ragas 二、安装🛡️ 三、快速使用 🔥 Open Analytics 🔍 四、References 五、生成综合测试集文档数据生成六、使用您的测试集进行评估数据 Metrics 指标评估七、监控生产中的 RAG 需要监控的方面

SQL Boy？大模型时代基于检索增强（RAG）的增删改查评估框架CRUD-RAG

Paper weekly

02-23

1328

论文标题：CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models作者单位：中国科学技术大学，上海算法创新研究院，新华社融媒国重论文地址：https://arxiv.org/abs/2401.17043数据&代码地址：https://gith...

Ragas开源项目安装与使用指南

gitblog_01086的博客

08-08

697

Ragas开源项目安装与使用指南项目地址:https://gitcode.com/gh_mirrors/ra/ragas 1. 项目目录结构及介绍 Ragas项目是一个用于评估检索增强生成（Retrieval Augmented Generation, 简称RAG）管道的框架。其目录结构通常遵循Python开源项目的标准布局，尽管具体的文件名和结构可能在实际仓库中有所变化，以下提供一个基于通用实...

Py之Ragas：Ragas(一款用于评估检索增强生成RAG流程的评估框架)的简介、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-16

4500

Py之Ragas：Ragas(一款用于评估检索增强生成RAG流程的评估框架)的简介、安装、使用方法之详细攻略目录 Ragas的简介 Ragas的安装 Ragas的使用方法 Ragas的简介 2023年5月15日，Ragas正式发布，这是一款用于评估检索增强生成（RAG）流程的评估框架。专门的解决方案，用于评估、监控和改进生产中的LLM和RAG应用的性能，包括用于生产质量监控的自定义模型。与创始人交谈 Ragas是一个框架，帮助您评估检索增强生成（RAG）流程。RAG表示一类LLM应用

可视化您的 RAG 数据 — 使用 Ragas 评估您的检索增强生成系统

liferecords的博客

03-08

1810

对于没有 ragas 的问题，它是 0.36，对于有 ragas 的问题，它是 0.52。预计该系统在处理 ragas 生成的问题时会表现得更好，因为这些问题是基于可用数据的，而 ChatGPT 直接生成的问题可能来自训练 ChatGPT 的所有数据。此外，许多不包含相关信息的维基百科特定文本添加，例如指向其他语言的链接或编辑注释，形成没有相邻问题的集群。它有助于在相关文档的上下文中查看问题。事实证明，同时转换问题和文档的相似性图对大量问题的帮助不大，因为或多或少的问题聚集在一起，并且往往与文档分开。

用 RAGAS 评估 RAG 管道初学者指南

数智笔记

05-20

2149

RAG工作流帮助我们管理和利用来自各种来源的数据，以提供准确和相关的结果。从不同的来源收集数据，如文本文件、PDF、网站、数据库或API。例如，Llama Hub提供了许多连接器，使这一步骤更容易。在索引阶段，系统将原始数据转换为向量嵌入并组织它们。使用句子转换模型将每个文档或数据片段转换为捕捉语义含义的高维向量。然后将这些向量组织成高效的数据结构，通常是n维树或哈希映射，以实现快速的相似性搜索。保存索引数据和标签，以便以后无需再次组织。将查询转换为向量，并使用余弦相似度或其他距离度量与索引向量进行比较。

深度测评 RAG 应用评估框架：指标最全面的 RAGas

m0_59235945的博客

10-17

7894

本文介绍了如何使用 ragas 生成测试集，介绍了多个常用的 RAG 评估指标。本文生成测试集部分代码基于 ragas v0.1 版本编写，具有较多问题根本无法使用，升级 v0.2.0 后出现代码兼容问题无法运行，后续等我更新吧。评估部分 v0.2.0 是兼容的，并且我在 v0.1 下评估会报错类似等问题，在升级后完美解决了，也没有出现指标 NaN 或者 0 的情况，推荐使用。

OpenAI 宣布将让人们无需注册账户即可免费使用 ChatGPT

程序员鑫港的博客

05-27

1215

自 2022 年底首次向公众推出以来，OpenAI 一直要求想要访问该聊天机器人的用户注册 OpenAI 账户。今天，该公司透露将向所有人免费开放 ChatGPT，无需创建账户。OpenAI表示，它将"逐步"推出这一新的访问权限，因此，根据您居住的地方，您可能仍需要先注册一个账户，然后才能向所有人提供这一改进。在开放之后，ChatGPT 打开就能用，看起来终于初步具备了「AI 搜索引擎」的样子。

人工智能利用Ragas评测RAG系统的

主攻大数据人工智能物联网安全低空经济等方向。mtsc 、gtest特邀分享嘉宾

03-03

607

RAG（Retrieval Augmented Generation，检索增强生成）是一种结合检索和生成模型的技术，通过从外部知识源中检索相关信息来增强语言模型的回答能力。Ragas是一个用于评估RAG系统性能的开源框架，它提供了一系列的评估指标和工具。下面将详细介绍如何利用Ragas评测RAG系统。

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1312

参考 [小学生也能听得懂的大模型 Transformer 1]

Rag评估框架Ragas

酌沧

06-30

436

代码地址: https://github.com/rexrex9/basic_neural_networks_pytorch/tree/main/chapter_llm/rag。

高级RAG(四)：RAGAs评估