FlexRAG：不再局限于文本的 RAG！中科院开源多模态 RAG 助手，支持多数据类型、上下文压缩和多种检索器类型

最新推荐文章于 2025-04-28 15:41:12 发布

Python编程杰哥

最新推荐文章于 2025-04-28 15:41:12 发布

阅读量1k

点赞数 10

文章标签： php 开发语言数据库 gpt 算法数学建模机器学习

本文链接：https://blog.csdn.net/xx_nm98/article/details/145041394

版权

🚀 快速阅读

功能：支持多模态 RAG、多数据类型、上下文压缩和多种检索器类型。
技术：基于压缩编码器和选择性压缩机制，显著降低计算负担。
应用：适用于开放域问答、对话系统、文档摘要与生成等知识密集型任务。

FlexRAG 是什么

FlexRAG 是中科院推出的高性能多模态 RAG 框架，旨在解决传统 RAG 系统在处理长上下文时面临的计算成本高和生成质量不足的问题。通过将检索到的上下文信息压缩成紧凑的嵌入表示，显著降低计算负担。

FlexRAG 的核心组件包括压缩编码器和选择性压缩机制，前者负责将长上下文转化为固定尺寸的嵌入，后者则通过评估信息的重要性来选择性地保留关键信息。这种设计提高了生成模型的表现，还支持灵活的压缩比和多模态数据处理。

FlexRAG 的主要功能

多模态 RAG：支持多模态 RAG，为不同数据模态开辟了广泛的应用可能性。
多数据类型：支持多种数据格式，包括文本（例如 CSV、JSONL）、图像、文档、网页等，可以灵活地处理各种数据源。
上下文压缩：通过压缩编码器将检索到的长上下文信息转化为紧凑的嵌入表示，减少计算负担。
多种检索器类型：支持稀疏检索器、密集检索器、基于网络的检索器和多模态检索器，灵活应用于不同场景。
提示微调：通过学习软提示（soft-prompt），改善下游任务的性能，使模型更好地适应特定任务。

FlexRAG 的技术原理

压缩编码器：负责将检索到的长上下文信息转化为紧凑的嵌入表示，通过提取关键信息和特征，减少输入给下游模型的负担。
选择性压缩机制：通过评估不同上下文信息的重要性，优先保留对生成最为关键的信息，动态调整保留的上下文信息。
双阶段训练工作流：分为预训练和微调两个阶段，预训练建立模型的基本语言理解和生成能力，微调优化模型在特定任务上的表现。

如何运行 FlexRAG

1. 安装 FlexRAG

可以通过 pip 安装 FlexRAG：

pip install flexrag

或者从源码安装：

pip install pybind11   git clone https://github.com/ictnlp/flexrag.git   cd flexrag   pip install ./

2. 准备检索器

下载并准备检索器所需的语料库和索引：

wget https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz   gzip -d psgs_w100.tsv.gz

3. 运行 FlexRAG 助手

运行 FlexRAG 的示例 RAG 应用：

python -m flexrag.entrypoints.run_interactive \       assistant_type=modular \       modular_config.used_fields=[title,text] \       modular_config.retriever_type=dense \       modular_config.dense_config.top_k=5 \       modular_config.dense_config.database_path=${DB_PATH} \       modular_config.dense_config.query_encoder_config.encoder_type=hf \       modular_config.dense_config.query_encoder_config.hf_config.model_path='facebook/contriever' \       modular_config.dense_config.query_encoder_config.hf_config.device_id=[0] \       modular_config.response_type=short \       modular_config.generator_type=openai \       modular_config.openai_config.model_name='gpt-4o-mini' \       modular_config.openai_config.api_key=$OPENAI_KEY \       modular_config.do_sample=False

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述