大模型
文章平均质量分 85
致Great
为将之道,当先治心
展开
-
怎么构造思维链数据?思维链提示工程的五大原则
我来为您翻译这篇关于思维链提示工程的文章,采用通俗易懂的中文表达:思维链(CoT)提示工程是生成式AI(GenAI)中一种强大的方法,它能让模型通过逐步推理来解决复杂任务。通过构建引导模型思考过程的提示,思维链能提高输出的准确性、连贯性和可靠性。本白皮书探讨了思维链提示工程的核心设计原则,提供实用案例,并概述了在各种应用中有效实施思维链的策略。生成式AI系统越来越多地用于需要逻辑推理、多步骤问题解决和上下文理解的任务。传统的提示方法往往导致输出缺乏深度或无法满足任务的复杂性。原创 2025-04-09 23:15:48 · 581 阅读 · 0 评论 -
推理模型不一定说的是真话:关于大模型“思维链”的隐藏真相
打个比方:你在考试,答题后写了解题思路。如果你真的是参考了书上的提示、或者你其实对这个知识点不太懂,那你在解释时也应该说出来。这才是“真实”的解释。对于AI来说,一条“真实”的思维链,应该是诚实地说明它是怎么一步步做出决定的,用了什么信息、参考了哪些内容。不是编的,不是事后找个借口来解释。原创 2025-04-07 15:39:06 · 322 阅读 · 0 评论 -
大模型背景下智能体、工具、函数和MCP傻傻分不清?
智能体是利用大模型执行任务的AI系统。它们通过自然语言理解用户需求,并规划任务执行步骤。例如,一个智能体可能被要求“安排下周二下午2点的会议”。为了完成此任务,智能体需要与外部工具交互,获取日历信息或创建事件。智能体通常依赖大模型来处理复杂任务,并通过标准接口(如MCP)调用外部工具。工具是提供特定功能的外部资源或服务。例如,日历工具可以管理预约,文件工具可以读写文档。函数是工具的具体操作,类似于方法或API端点。原创 2025-04-03 17:47:20 · 854 阅读 · 0 评论 -
AI老板心中的迈巴赫:DeepSeek+Ollama+Xinference+RAGFlow+Dify部署教程,RAG产品化体验5件套
DeepSeek-R1火了之后,Ai老板部署需求大大提升,抛开效果不谈,五件套易用性和灵活性相比VLLM大大提升,门槛较低,但是效果不言而喻。以下部署全部以docker方式进行,因为太方便了,但同时坑很多,请做好心理准备喜欢折腾的同学可以按照下面教程进行部署,我也是被逼无奈请杯子里面装满水,原地坐牢,不出意外的话就马上出意外了,一个BUG一支烟。原创 2025-03-21 22:51:42 · 1014 阅读 · 0 评论 -
为什么 RAG 会失败以及如何解决?揭秘背后三大致命缺陷!
RAG(检索增强生成)它把检索系统和生成式 AI 结合起来,让 AI 回答得更准确、更贴合上下文。和普通的大语言模型(LLM)不同,RAG 不只是依赖训练时学到的知识,而是能实时从外部信息源查找内容,并用这些信息来生成更可靠的回答。RAG 的核心组成负责从外部数据源提取相关信息,确保 AI 的回答既准确又及时。检索做得好,AI 的输出质量就高;如果检索设计不合理,可能会导致无关答案、幻觉(AI 瞎编)或数据缺失。由大语言模型(LLM)来处理用户提问,并结合检索到的内容生成回答。原创 2025-03-21 22:22:47 · 674 阅读 · 0 评论 -
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
最近,基于大型语言模型(RLLMs)的推理能力取得了显著进展,例如OpenAI的O1和DeepSeek的R1,它们在数学、编程等复杂领域展现了强大的能力。然而,尽管已有这些突破,关于长链思维的全面综述仍然匮乏,这也限制了对其与传统短链思维(Short CoT)区别的理解,并使得“过度思考”和“测试时扩展性”等问题的讨论变得复杂。接着,探讨了长链思维的关键特征:深度推理、广泛探索和可行反思,这些特征使得模型能够处理更复杂的任务,且相比较浅的短链思维,能够生成更加高效、连贯的结果。原创 2025-03-18 17:22:37 · 879 阅读 · 0 评论 -
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了,这次居然学会用工具了
Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具,比如自己调用代码解释器,来提升推理和解决问题的能力。具体怎么实现的呢?它会把「思考链」和「工具调用」结合起来,给模型配上了自查、自我探索和自己修bug的能力。简单说,就是教模型边想边动手,用工具解决推理过程中的难题。具体的训练步骤大概是:1️⃣ 收集数学和编程题目,比如数学的AIME、MATH,编程的Codeforces、LiveCodeBench这些比赛题目。原创 2025-03-17 22:08:02 · 656 阅读 · 0 评论 -
推理大模型的后训练增强技术-从系统1到系统2:大语言模型推理能力的综述
我们平时接触的AI,很多都是快速的、直觉型的,类似人类的“系统1”,能快速回答问题,但碰到稍微复杂一点的任务,就可能“翻车”了。这篇论文探讨的,是如何让AI从这种“直觉型”思维,迈向更为深度和理性的“系统2”思维——也就是人类在面对复杂问题时,那种慢一点但更加谨慎和全面的思考模式。研究团队认为,实现真正的人工智能,关键在于如何有效地让AI从快速的直觉反应,过渡到深度的、理性的思考。仓库链接:https://github.com/zzli2022/Awesome-System2-Reasoning-LLM?原创 2025-03-15 00:34:18 · 335 阅读 · 0 评论 -
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸,分别是 10 亿、40 亿、120 亿 和 270 亿 参数,包含基础(预训练)和指令调优版本。Gemma 3 支持 多模态!4B亿、12B和 27B参数的模型可以处理 图像 和 文本,而1B参数的模型仅限于文本。Ollma Gemma3模型权重合集Gemma 3作为Gemma系列的最新迭代,带来了以下几个关键的进步:Gemma 3整合了视觉理解能力,能够处理图像输入,扩展了模型的应用范围。原创 2025-03-13 00:40:34 · 2822 阅读 · 0 评论 -
推理大模型的后训练增强技术--LLM 推理模型的现状
我的猜测是,研究人员受到了 DeepSeek-R1 论文中“顿悟时刻 (Aha moment)”图的启发,研究人员在图中看到 LLM 提出了类似“等等,等等。等等。这是一个顿悟时刻,我可以标记一下 (Wait, wait. Wait. That’s an aha moment I can flag here.)”的内容,这表明纯强化学习可以诱导 LLM 产生推理行为。有趣的是,他们还尝试了其他 token,例如“嗯 (Hmm)”,但发现“等待 (Wait)”的表现略好。原创 2025-03-12 15:55:54 · 879 阅读 · 0 评论 -
大语言模型对软件工程师的影响曲线
最近刷到一篇有意思的文章,讨论了大语言模型(LLM)对软件工程师影响的职级曲线。以工程师的职级差异视角出发,揭示了为什么不同经验水平的人对大语言模型的评价差异如此之大,提供了一个非常有趣的解释框架。关于大语言模型 (LLM) 有什么用,网上已经吵翻天了。有人认为它带来了生产力的巨大飞跃,也有人对此不以为然。现在,每个与此相关的 HackerNews 帖子下面,都会出现一长串争论不休的回复。我们称之为新的“大分歧”。原创 2025-03-11 13:16:51 · 935 阅读 · 0 评论 -
关于DeepResearch设计实现的碎碎念
最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch和这两个词不断的映入我们眼帘。图片来源:Jina,DeepSearch 与 DeepResearch 的设计和实现一个有趣的发现是,DeepSearch 和 DeepResearch 不仅限于OpenAI,之前一直听说OpenAI的DeepResearch特别厉害,最近许多公司如 Jina AI、Perplexity 和 Google 也在开发类似工具。原创 2025-03-10 02:35:26 · 1119 阅读 · 0 评论 -
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequential decision making)任务。原创 2025-03-09 13:47:14 · 780 阅读 · 0 评论 -
推理大模型的后训练增强技术-指令微调篇,如何用指令微调提升推理能力?
指令微调是一种在带有指令提示和相应输出的标记数据集上微调大模型的技术,通过提供一组概述所需操作的指南或指令,使预训练模型适应执行特定任务。指令:“你是一个乐于助人、尊重他人且诚实的助手。始终尽可能有帮助地回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、恶毒、危险或非法的内容。请确保你的回答在社会上不带有偏见,并且具有积极的性质。如果一个问题没有意义,或事实不连贯,请解释原因,而不是回答错误的内容。如果你不知道问题的答案,请不要分享错误信息。上下文:<<输入你的上下文>>原创 2025-03-08 12:59:47 · 893 阅读 · 0 评论 -
推理大模型的后训练增强技术-预训练篇
训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。阶段1:自我监督学习(Self-Supervised Learning):自我监督学习是一种特殊形式的无监督学习,主要通过数据本身的内在结构来生成标签,而不需要人工标注的标签。比如LLM中的预训练。阶段2:监督学习(Supervised Learning):监督学习是机器学习中最常见的一种方法,其中模型通过带有标签的训练数据进行学习,目的是从输入数据和其对应的标签中找到映射关系。原创 2025-03-07 20:28:46 · 1045 阅读 · 0 评论 -
【论文分享】推理大模型Post-Training技术的全面综述
大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。原创 2025-03-06 21:43:11 · 612 阅读 · 0 评论 -
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。Open R1 是一个旨在让 LLM 推理复杂问题的项目。它通过使用强化学习来鼓励 LLM 进行“思考”和推理。简单来说,模型经过训练可以产生想法和输出,并构建这些想法和输出,以便用户可以分别处理它们。让我们看一个例子。问题:“我有 3 个苹果和 2 个橙子。我总共有多少个水果?想法:“我需要将苹果和橘子的数量相加,得到水果的总数。答案:“5”原创 2025-03-04 12:15:53 · 1100 阅读 · 0 评论 -
图解KV Cache:解锁LLM推理效率的关键
在Transformer架构中,KV Cache是一种关键的性能优化机制。它通过缓存已计算的Key和Value矩阵,避免在自回归生成过程中重复计算,从而显著提升推理效率。这种机制类似于人类思维中的短期记忆系统,使模型能够高效地利用历史信息。KV Cache 作为 Transformer 架构中的关键性能优化机制,通过巧妙的缓存设计显著提升了模型的推理效率。其工作原理主要体现在三个核心维度:首先,在计算效率方面,KV Cache通过缓存已处理token的Key和Value表示,有效消除了重复计算的开销。原创 2025-03-03 18:27:37 · 1016 阅读 · 0 评论 -
DeepSeek开源周 Day05:从3FS盘点分布式文件存储系统
今天是DeepSeek开源周的第五天,官方开源了一种高性能分布式文件系统Fire-Flyer File System,简称3FS,目的是解决人工智能训练和推理工作负载的挑战。Fire-Flyer 文件系统 (3FS) - 一种并行文件系统,可利用现代 SSD 和 RDMA 网络的全部带宽。⚡ 180 节点集群中的 6.6 TiB/s 聚合读取吞吐量⚡ 在 25 节点集群中,GraySort 基准测试的吞吐量为 3.66 TiB/min。原创 2025-02-28 10:31:04 · 1432 阅读 · 0 评论 -
DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略
今天是DeepSeek开源周的第四天,官方开源了一种新型并行计算优化策略——DualPipe。其实大家阅读过Deepseek-V3技术报告的同学,对这个技术并不陌生。开源地址:https://github.com/deepseek-ai/DualPipe。原创 2025-02-27 12:11:32 · 1240 阅读 · 0 评论 -
DeepSeek开源周 Day03:从DeepGEMM看大模型算力提速的矩阵乘法
今天是DeepSeek开源周的第三天,继FlashMLA和DeepEP之后,DeepSeek开源了DeepGEMM库。作为一个专注于FP8精度通用矩阵乘法的高性能库,DeepGEMM在提供极致性能的同时保持了令人惊讶的代码简洁性。DeepGEMM以其轻量级设计和出色性能成为大模型计算加速领域的亮点。该库不仅支持常规的密集矩阵乘法,还特别优化了混合专家模型(MoE)场景下的分组GEMM计算,成为DeepSeek-V3/R1训练和推理的核心动力。在技术实现上,原创 2025-02-26 10:35:08 · 1095 阅读 · 0 评论 -
DeepSeek开源周 Day02:从DeepEP开源趋势重新审视大模型Infra
如下图为 NVIDIA GPU 常见的浮点数表示方式,其中 sign 表示符号位,exponent 表示指数位(决定了动态范围),mantissa 表示尾数位(决定了表示精度)。相比 FP32:FP16的指数位和尾数位都更小。因此,通常 FP32 转 BF16 时会带来较大的精度损失。BF16的指数位和 FP32 相同,尾数位更少。因此,通常 FP32 转 BF16 只需要做尾数位的截断,损失相对较小。现在的 LLM 预训练中通常都会使用 BF16。FP8 E4M3 的指数位和尾数位都更小。原创 2025-02-25 12:15:10 · 1049 阅读 · 0 评论 -
DeepSeek开源周 Day01:从FlashMLA背后原理回顾KV Cache
这部分主要参考LLM推理算法简述,可以快速回顾下KV Cache概念,关于更多LLM推理算法讲解大家可以阅读。LLM 推理服务的吞吐量指标主要受制于显存限制。研究团队发现现有系统由于缺乏精细的显存管理方法而浪费了 60% 至 80% 的显存,浪费的显存主要来自 KV Cache。因此,有效管理 KV Cache 是一个重大挑战。什么是KV Cache?原创 2025-02-24 11:37:52 · 397 阅读 · 0 评论 -
关于Grok3和DeepSeek背后苦涩教训引发的思考
Grok3 和 DeepSeek-R1 的故事,是 2025 年 AI 领域的一面镜子。Grok3 用规模证明了计算能力的无可替代,而 DeepSeek-R1 用创新展示了效率的潜力。没有一条路是完美的。规模带来胜利的同时埋下成本的隐患,效率带来希望的同时伴随挑战的阴影。站在这个十字路口,AI 社区需要回答的是:未来的突破是继续“力大拍砖”,还是转向“精巧杠杆”?或许,正如《苦涩教训》的深刻启示,最终的答案不在于选择哪条路,而是如何在这两条路之间找到融合之道——用规模赋能创新,用创新优化规模。原创 2025-02-23 02:19:26 · 1114 阅读 · 0 评论 -
注意力机制进化史:从MHA到MoBA,新一代注意力机制的极限突破!
大模型时代下的注意力模型发展回顾:MHA、MQA、GQA、MLA、NSA、MoBA原创 2025-02-20 00:12:27 · 629 阅读 · 0 评论 -
硬件对齐+原生训练!DeepSeek NSA打造高效稀疏Attention
NSA的技术方法涵盖算法设计与内核优化。其整体框架基于对注意力机制的重新定义,通过设计不同的映射策略构建更紧凑、信息更密集的键值对表示,以减少计算量。同时,针对硬件特性进行内核优化,提升实际运行效率。背景知识注意力机制:在语言建模中,注意力机制广泛应用。对于输入序列长度为tttotAttnqtktvtotAttnqtktvt其中AttnAttnAttnAttnqtktvt∑i1tαtiv。原创 2025-02-19 08:51:18 · 1043 阅读 · 0 评论 -
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。原创 2025-02-16 21:50:58 · 1524 阅读 · 0 评论 -
一文深入了解DeepSeek-R1:模型架构
DeepSeek-R1 (DeepSeek-V3) 总共包含 671B 个参数,其中每个标记激活 37B 个。在这里插入图片描述。原创 2025-02-13 23:42:36 · 6632 阅读 · 2 评论 -
DeepSeek-R1复现方案梳理
在 100 步时,解方程的成功率约为 25%,并且模型开始用文字进行 “推理”;近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。原创 2025-02-12 22:36:59 · 1146 阅读 · 0 评论 -
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
群体相对策略优化 (是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”为查询生成一组响应。根据预定义的标准(例如准确性、格式)计算每个响应的奖励。原创 2025-02-11 17:56:13 · 953 阅读 · 0 评论 -
RbFT:针对RAG中检索缺陷的鲁棒性微调
总体而言,这篇论文针对RAG系统在面对检索缺陷时的脆弱性问题,提出了一种有效的鲁棒性提升方法RbFT,并在多个数据集上验证了其有效性,为实际应用中提高RAG系统的鲁棒性提供了有价值的解决方案。原创 2025-02-10 22:33:25 · 1119 阅读 · 0 评论 -
DeepSeek-R1 论文解析——人工智能领域的 RL LLM 新时代?
最近几年,AI领域真是突飞猛进,尤其是大型语言模型(LLM),它们为通用人工智能(AGI)的发展打下了基础。OpenAI的o1模型就是个很好的例子,它用了一种创新的推理时间扩展技术,大大提升了推理能力。不过呢,这个模型还是闭源的,有点遗憾。今天咱们来聊聊DeepSeek发布的一篇超有料的研究论文——DeepSeek-R1。这篇论文的标题是《DeepSeek-R1:通过强化学习激励大型语言模型中的推理能力》,里面介绍了一个超牛的开源推理模型,还详细讲解了怎么用大规模的强化学习技术来训练这种模型。原创 2025-02-09 21:26:01 · 878 阅读 · 0 评论 -
深入了解Deepseek模型的最佳三篇论文
论文提出DeepSeek-R1系列模型,利用强化学习提升LLMs推理能力。通过多阶段训练、奖励建模、知识蒸馏等手段,提升推理能力,并在多个基准测试中验证有效性。此外,论文开源模型和相关工具,支持研究社区进一步探索和改进。原创 2025-02-08 23:10:50 · 1146 阅读 · 0 评论 -
图解DeepSeek R1训练流程
论文提出DeepSeek-R1系列模型,利用强化学习提升LLMs推理能力。通过多阶段训练、奖励建模、知识蒸馏等手段,提升推理能力,并在多个基准测试中验证有效性。此外,论文开源模型和相关工具,支持研究社区进一步探索和改进。原创 2025-02-07 18:10:53 · 1607 阅读 · 0 评论 -
RAG与CAG的较量与融合
在人工智能领域,检索、处理和生成信息的能力是系统效能的关键决定因素,支撑这些能力的框架正在经历变革性的发展。检索增强生成 (RAG) 已成为智能系统的基石,将大规模外部知识库与语言生成模型连接起来。原创 2025-01-27 23:25:24 · 985 阅读 · 0 评论 -
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
Open-R1 是由 HuggingFace 发布的一个完全开放的项目,旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案,从而推动大模型技术的发展和应用。Open-R1 项目通过开源的方式,详细展示了如何从知识蒸馏到强化学习,再到多阶段训练,逐步复现 DeepSeek-R1 的训练流程。这不仅为研究人员提供了宝贵的技术参考,也为大模型的普及和应用奠定了坚实的基础。原创 2025-01-26 23:35:40 · 4144 阅读 · 0 评论 -
【RAG落地利器】向量数据库Weaviate部署与使用教程
Weaviate 是一种开源的向量搜索引擎数据库,允许以类属性的方式存储 JSON 文档,并将机器学习向量附加到这些文档上,以在向量空间中表示它们。Weaviate 支持语义搜索、问答提取、分类等功能,并且可以通过 GraphQL-API 轻松访问数据。原创 2025-01-22 14:28:23 · 2857 阅读 · 0 评论 -
【RAG落地利器】向量数据库Chroma入门教程
高效管理文本嵌入与相似度搜索的向量数据库随着大型语言模型(LLM)的广泛应用,向量数据库逐渐成为处理文本嵌入和相似度搜索的关键工具。Chroma是一个开源的向量数据库,专门设计用于存储和检索文本嵌入,帮助开发者更高效地构建基于大模型的应用。本文将带你了解Chroma的核心功能、设计理念以及如何使用它进行文本嵌入管理和相似度搜索。向量数据库是一种专门用于存储和检索高维向量数据的数据库。与传统的关系型数据库不同,向量数据库针对非结构化数据(如文本、图像等)的嵌入表示进行了优化。原创 2025-01-22 00:03:35 · 1852 阅读 · 0 评论 -
LLM Agent和 Agentic RAG 的最佳综述
代理式检索增强生成(Agentic RAG)通过在RAG管道中嵌入自主代理,代表了人工智能领域的重大飞跃。基础原理,包括代理模式,如反思、规划、工具使用和多代理协作。Agentic RAG系统的详细分类,展示了单代理、多代理、分层、纠正、自适应和图基RAG等框架。传统RAG、Agentic RAG和代理式文档工作流(ADW)的比较分析,突出它们的优势、劣势和最佳适用场景。跨行业的实际应用,如医疗、教育、金融和法律分析。挑战和未来方向,涉及扩展性、伦理AI、多模态集成和人机协作。原创 2025-01-21 14:59:59 · 1000 阅读 · 0 评论 -
重新思考RAG的相关性:相似≠相关
那么,如何定义相关性?这是一个复杂的问题。中提到了一些有趣的实验,研究者通过构建不同类型的信息(如无关信息部分相关的无关信息和相关但误导性的无关信息)来测试大模型对相关性的敏感性。例如,无关信息可能与问题主题无关,但由于高相似性得分而被检索到。而部分相关的无关信息则包含与问题主题部分重叠的信息,但不提供问题的答案。这些实验表明,大模型对相关性的理解与传统的检索系统并不完全一致。我们需要更精细的方法来衡量和优化相关性。大模型更容易被语义高度相关但不相关的信息误导。原创 2025-01-19 22:32:37 · 709 阅读 · 0 评论
分享