近期RAG误区再认识及Claude3.7的混合模型推理机制解析

一个是关于Claude3.7的混合模型推理机制,昨天提出了一些疑问,思考了下,有些思路。

另一个是关于RAG,目前针对这块的一些论断很混乱,标题党很多,大家之前的原先概念也不统一,角度也不一,现在Deepresearch出来了,又在炒新概念,其实挺误导大众的,我们从基本逻辑出发,去看看这个问题,会有更清晰的认识。

一、先看cluade的混合推理模式

昨天claude 3.7发布,有个点,大家比较关注,就是它的混合推理,我们看两个问题。

第一个问题,什么是混合推理模式。

参见https://aws.amazon.com/cn/blogs/aws/anthropics-claude-3-7-sonnet-the-first-hybrid-reasoning-model-is-now-available-in-amazon-bedrock/,这个工作

Claude3.7Sonnet采用了不同的模型思维方式。Claude3.7Sonnet不使用单独的模型(一个用于快速回答,另一个用于解决复杂问题),而是将推理作为核心功能集成到一个模型中。

有两种模式-标准模式和扩展思维模式-可在AmazonBedrock中切换。在标准模式下,Claude3.7Sonnet是Claude3.5Sonnet的改进版本。在扩展思维模式下,Claude3.7Sonnet需要更多时间详细分析问题、规划解决方案并考虑多个角度,然后再提供响应,从而进一步提高性能。您可以通过选择何时使用推理功能来控制速度和成本。扩展思维标记计入上下文窗口并作为输出标记计费。

可以从官网:https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking中找到使用说明。

使用方式:

返回结果:

第二个问题,实现机制猜想?

所以,我们顺道来分析下这个机制,两个,一个是控制是否thinking,一个是thinking多久。

思路可以猜想下,可能使用了特殊的token,在提示词最后加上这个 token,模型就会开始推理模式回答,没有这个token,按旧有方式回答。然后工程上进行 API 包装。限制长度的部分应该也只是工程上的处理,程序会观察输出内容是否超过budget,超过了就强行插入终止思考。

那么,问题来了,这个其实还是依赖于大模型自身的能力,大家要想的是,假设这是微调或者强化出来的结果,这个是如何微调的,但claude这种,似乎验证了可以通过微调来实现这种效果,路线可行?

首先是是否触发思考的问题。

既然有开关,那么在训练数据侧就应该会有一个token,标记出是否要thinking。如果有限制token,那么是否构造训练数据时,也会将这类限制写入到input 当中,大家感兴趣的,可以去做做实验。如果使用特殊token做开关的话,这样训练时可以分开训练,模型可以同时拥有两种甚至多种能力。互相之间不会干扰。当然,如果将"\n\n"作为特殊token,或许也可以,但是这会产生一定的干扰。模型有几类事情,第一个是过于简单不必思考的,思考过程可以为空,R1 是这么做的;第二个是事情复杂,需要思考才能解决的,这类用 RL 激活的思考复杂度;第三个是claude 目前做的,就是事情可能也是比较复杂,但是用户要求不思考,那么我依旧需要高质量的回答问题。

另一个是控制思考长度的问题

进一步想,如果Claude 3.7 采用的是s1 同样的方法,也就是不会插入"wait"启发继续思考,而是插入""来提前结束思考。关于s1,可可以看看:https://mp.weixin.qq.com/s/r8yoXRMWnoh_rUbHjzjEsQ,以及工作 S1《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393,https://github.com/simplescaling/s1),提到多种预算控制方案。一种是条件长度控制方案,依赖于在提示中告诉模型它应该生成多长时间。

例如可以执行多种粒度的控制,如token-条件控制,在提示中指定思考token的上限;步骤条件控制,指定思考步骤的上限,其中每个步骤大约为100个tokens;类-条件控制:编写两个通用提示,告诉模型思考一小段时间或很长一段时间。

二、再看RAG的一些误区

最近DeepResearch出来之后,大家提RAG提的少了,甚至都有些摒弃之嫌,一言以蔽之,就是什么火贴什么,然后架空历史,数典忘祖(注意这个成语)。

例如,最近看到一个文章《别搞Graph RAG了,拥抱新一代RAG范式DeepSearcher》(https://mp.weixin.qq.com/s/gLyaLhWWDj1WoDSxEwpT6Q),纯标题党,带节奏,大家擦亮眼睛,看其写文章的目的是什么?

别搞Graph RAG了,拥抱新一代RAG范式DeepSearcher?换个名字就能叫“新范式”了?早就有了,纯故事重提?这种表述是有很大误导性的。拥抱?需要成本,也不一定适用,无需号召拥抱。

先说一个基本事实,不要数典忘祖,现在无论是RAG,还是GraphRAG,还是AgenticRAG(也就是DeepResearch),都是RAG,都是为了LLM的输入上下文不充分,然后通过召回检索外部知识库的方式,来增强大模型生成的范式。

所以,这里有个统一理解,就是RAG到底是什么。有的人会分狭义RAG跟广义RAG,这些是在玩文字游戏。

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合了信息检索技术与语言生成模型的技术范式。该技术通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力。

后续的方式,都是在这个框架下做的调优,所以别说什么DeepResearch要拥抱,GraphRAG不要搞了,任何技术都是螺旋式迭代上升优化的,提出之处都是为了解决特定的场景问题来做的,新的优化方案不是全干死了,它有他的长处,也有它的成本,有它的靶点,这些基本认识的糊涂,我们不要去犯。

例如,我们可以对比这几个的变化(来自于这篇文章的几个好图),其实更多的是在召回上做的优化,比如GraphRAG为了解决传统RAG之间chunk关联性差,召回率不高的问题,没法回答总结摘要类问题而提出。DeepResearch是为了解决上面两种方案是一次性的,无法让大模型自发的去反馈,去反思召回和生成结果,所以底层是个Agent,而RAG是Agent的一个特例,这些是一些局部优化操作。

我们可以说的更直白点,对于DeepResearch,它和RAG没啥本质区别,和Graph RAG又没啥冲突,其本身就是一个do while 循环的RAG,加了reflection步骤,早就玩烂的模式,并且很慢,依赖于大模型的拆解跟反馈能力,成本很高,这块也不要去吹。

抛去刚才说的误导性的标题之外,这个工作中梳理的这张表倒不错,也供大家参考,很不错。

实际上,RAG是很有很大包容性的,因为它是一个范式,是个技术框架,可以往里面塞很多东西,也衍生出了很多子子孙孙,召回,生成,prompt优化等,这是RAG的魅力,范围足够大。

但是,大家追逐的,绝不是一个个新的技术本身,而是RAG这套,如何针对业务选择最好的变体去提升业务性能,没有最好的RAG方案,只有更合适的方案,每个方案都有自己的优势和劣势,大家做的是选择题,多选题,而不是客观题。

进一步的,说到DeepResearch,其加剧了对知识可信度的,知识整理的需求,并且对大模型的能力也提出了更多要求,以及对大家的容错性和场景忍耐性。因为这里面噪声太多了。

大家少扯一些概念,多回归到技术本身,会有更多的清晰的认知。一起加油

总结

本文主要讲了两个问题,一个是关于Claude3.7的混合模型推理机制,昨天提出了一些疑问,思考了下,有些思路。另一个是关于RAG,目前针对这块的一些论断很混乱,标题党很多,大家之前的原先概念也不统一,角度也不一,现在Deepresearch出来了,又在炒新概念,其实挺误导大众的,从基本逻辑出发,去看看这个问题,会有更清晰的认识。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值