AI研思录-CSDN博客

原创阿里重磅开源QwQ-32B推理模型！全面支持Agent，性能媲美满血R1！

这标志着 Qwen 在扩展强化学习（RL）以增强推理能力方面迈出了第一步。我们不仅见证了缩放 RL 的巨大潜力，还认识到了预训练语言模型中尚未开发的可能性。未来，他们将继续深入探索 RL 的潜力，并将其与更强大的基础模型相结合，利用更大的计算资源，致力于打造下一代 Qwen 模型，并最终迈向通用人工智能 (AGI) 目标！

2025-03-06 13:25:47 765

原创 RAFT：让大模型学会“开卷考试”的黑科技，性能飙升76%！

RAFT是一种训练策略，旨在提高模型在特定领域的“开卷”设置中回答问题的表现。强调了几个关键的设计决策，例如在训练时加入干扰文档、组织数据集使其一部分上下文中不包含黄金文档，以及以链式思维的方式生成答案并直接引用相关文本。在RAFT中，每个训练数据点包含一个问题、一组文档以及从其中一个黄金文档生成的链式思维风格答案。RAFT专门解决了微调LLMs的挑战，使其既能整合领域知识，又能提高领域内RAG的性能。我们致力于为您带来最前沿的AI资讯、最深入的技术解析、最实用的产品应用以及最具启发性的学术成果。

2025-03-04 13:29:28 436

原创阿里万相，深夜开源！8G显卡就能跑

1.3B版本万相模型不仅超过了更大尺寸的开源模型，甚至还和一些闭源的模型结果接近，同时能在消费级显卡运行，仅需8.2GB显存就可以生成480P视频，适用于二次模型开发和学术研究。阿里云视频生成大模型万相2.1（Wan）重磅开源，此次开源采用Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务。GitHub的：https://github.com/Wan-Video/Wan2.1。

2025-03-04 13:28:34 291

原创下一代RAG：通义实验室发布多代理RAG框架ViDoRAG

点击关注我们，🚀这里是AI技术、产品、工程与学术的交汇点！我们致力于为您带来最前沿的AI资讯、最深入的技术解析、最实用的产品应用以及最具启发性的学术成果。检索增强生成（Retrieval-Augmented Generation, RAG）通过使大模型（LMs）能够利用外部知识解决问题来增强其能力。随着信息表达形式的日益多样化，我们经常需要处理包含。这些视觉元素使信息更易理解，并广泛应用于教育、金融、法律等领域。

2025-03-04 13:27:35 794

原创 Corex:解锁多模型协作的新范式

由于大模型具有超强的语义理解和推理能力，单个LLM能够胜任典型的NLP任务。然而，在执行复杂任务时，其性能仍然受限于内部表示的局限性。为了突破这一界限，这篇文章提出了Corex框架，通过多模型协作来解决复杂问题。Corex由多种协作模式组成，包括讨论（Discuss）、**审查（Review）**和检索（Retrieve），这些模式共同工作以增强推理过程。这些范式促进了与任务无关的方法，使得基于LLM的代理能够“跳出思维定势”，从而克服常见的错误并提供更好的解决方案。讨论（Discuss）模式。

2025-01-13 20:48:04 676

原创 Search-o1：赋予推理模型主动搜索的能力

Search-o1 不仅提升了大型推理模型在复杂任务中的表现，更为智能系统的可靠性和适用性奠定了坚实的基础。通过自主知识检索和精炼整合，Search-o1有效解决了知识不足的问题，显著增强了推理模型的可信度和实用性。未来，随着这一框架的进一步优化和推广，我们可以赋予类o1的推理模型更多的工具，而不仅局限于Search这一个工具，在更多复杂问题的解决中展现出更强大的能力。

2025-01-12 15:37:07 1120

原创 Auto-CoT：自动构建大模型的思维链提示

零样本链式思维（Zero-Shot-CoT）：与任务无关，在测试问题之后添加一个如“让我们一步一步思考”的单一提示语，以促进LLMs中的推理链条。手动链式思维（Manual-CoT）：包含一个问题和对应的推理思维链。这是思维链是由一系列中间推理步骤（即理由）和预期答案组成。这篇文章提出了自动思维链（Auto-CoT），先将问题聚类，每一类中抽出一个具有代表性的问题，利用零样本思维链为每个问题生成推理链。例如：一共有K个聚类，会抽取K个问题，用提示词“让我们一步一步地思考”，生成K套思维链步骤。

2025-01-12 15:35:59 1530

原创查询分解是提高LLM检索效率的关键，别只依赖简单改写！

查询优化指的是旨在提高大型语言模型（LLMs）理解及回答查询的效率和质量的一系列技术，特别是在检索增强生成（RAG）场景中处理复杂查询时。通过改进用户的原始查询，这一过程带来了更加准确和上下文适当的响应，包括语义模糊、复杂需求以及查询与目标文档之间的相关性差异。为了提供完整且细致的响应，大型语言模型（LLMs）必须学会通过识别用户的意图来澄清查询，然后制定更针对性的搜索查询。查询消歧主要分为两种类型的方法：一种是针对本身模糊的查询，另一种则是多轮对话中的查询，需要结合历史对话内容重写查询以实现消歧。

2025-01-06 10:47:00 1062

原创微软又放大招了！MarkItDown：轻松转换为Markdown的神器

微软最新开源的 Python Markitdown 工具，能将 PDF、Office 文档（Word/PPT/Excel）、图片、音频等多种格式的文件智能转换为 Markdown 格式，支持 OCR 文字识别、语音转文字和元数据提取等功能，特别适合文档分析和内容索引场景。项目地址：https://github.com/microsoft/markitdown。

2024-12-18 17:17:08 2355

原创思维图(GoT)：解锁大模型解决复杂问题的能力

人类在进行思考时，不仅仅只遵循一条思维链，也不是像思维树那样尝试多种不同途径，而是会形成一个更加复杂的思维网。举个例子，一个人可能会先探索一条思维链，然后回溯再探索另一条，然后可能会意识到之前那条链的某个想法可以和当前链结合起来，取长补短，得到一个新的解决方案。类似地，大脑会形成复杂的网络，呈现出类似图的模式，比如循环模式。这篇论文介绍了一种名为“思维图谱”（简称GoT）的框架，它通过将信息生成建模为任意图来增强大型语言模型的提示能力。

2024-12-16 20:26:15 1114

原创 AI搜索爆火！盘点开源项目，最后一个你绝对不能错过

AI搜索，即人工智能驱动的搜索技术，是利用机器学习和深度学习算法对海量数据进行分析和理解，从而提供更加智能和个性化的搜索服务。与传统搜索引擎相比，AI搜索具有更强的语义理解和个性化推荐能力

2024-12-14 17:38:27 1074

原创 Adaptive-RAG：让查询处理更智能，检索更精准！

RAG（Retrieval-Augmented Generation）通过将外部知识库的非参数化知识整合到大型语言模型中，来提升模型的回答准确性，尤其是在一些任务（如问答）中。现有的检索增强方法对于简单查询往往会产生不必要的计算开销，而对于多步骤复杂查询可能无法有效地处理，导致模型的回答不准确或者效率低下。

2024-12-10 12:57:14 568

原创 LightRAG：用图结构和双层检索打造更智能的RAG系统

在 RAG 系统中，生成模块的效果基于通用大语言模型的能力，而数据索引和检索对系统的效率和质量是非常重要的。为了改善检索增强生成（RAG）系统，使其能更好地整合外部知识源并提供更精准和上下文相关的回答，捕捉复杂的相互依赖关系，这篇文章提出了一种名为LightRAG的新框架。LightRAG 通过引入图结构来改进文本索引和检索过程，同时该框架采用了两阶段检索机制，首先在低级层面进行基础信息的检索，然后在高级层面探索更深层次的知识关联，提高了实体及其关系检索的效率。

2024-12-10 12:56:21 1269

原创思维缓冲器 Buffer of Thought：大幅提升复杂任务推理准确率至79.4%

这篇论文提出了思维缓冲区（Buffer of Thoughts，BoT），一种新颖且多功能的思维增强推理方法，旨在提升大型语言模型的准确性、效率和鲁棒性。通过元缓冲区来存储一系列信息丰富的高级思维，即思维模板，这些模板是从跨多种任务的问题解决过程中提炼出来的。对于每个问题，推理时会先检索相关的思维模板，并根据任务模板自适应实例化任务。为了确保可扩展性和稳定性，通过缓冲区管理器来动态更新元缓冲区，从而随着解决更多任务增强元缓冲区的容量。

2024-12-05 21:21:41 1009

原创 RAT:融合RAG和CoT的高效多步推理任务策略

思维链技术通过在提示词中加入“让我们一步一步思考”的指令，模型会自动输出中间推理步骤，从而生成更加精准的答案。这种方法不仅提高了答案模型的推理能力，还增强了答案的可解释性。但是由于大模型的幻觉问题，在长任务推理中模型可能会生成看似合理但实际上并不准确的推理信息。因此这篇论文考虑在COT的基础上加上了RAG，即RAT，通过利用检索到的外部信息为大模型提供推理依据。利用 LLMs 的 zero-shot 能力生成初始思维链，并将思维链和原始任务放入提示中检索有助于修正错误思维链的信息；

2024-11-30 20:10:46 1162

原创集结多个GraphRAG框架：开启智能知识的全新时代

GraphRAG通过将传统的RAG（Retrieval-Augmented Generation）框架与图结构结合，利用知识图谱（KG）中的实体关系、社区结构及知识的关联性，提升了信息检索和生成的效果。微软的GraphRAG发布后，也涌现了很多轻量化的版本，这篇文档对GraphRAG的框架做一个总结，也会陆续不断更新。

2024-11-25 21:03:11 1410

原创颠覆传统检索：RAPTOR检索树提升检索准确率20%！

检索增强语言模型能够更好地适应世界状态的变化，并融入长尾知识。然而，现有的检索增强方只能检索几个简短的、连续的文本块，这对于需要整合文本多个部分的知识的问题是不够的，限制了它们表示和利用大规模语义结构的能力。这篇文章提出了一种新颖的方法——检索树，即考虑了广泛的主题理解，也考虑了细粒度的细节信息。通过递归地嵌入聚类和总结文本片段，从底部向上构建一个具有不同总结层次的树，来解决阅读中的语义深度和连接性问题。在推理时，使用RAPTOR模型从这棵树中进行检索，在不同抽象层次上整合信息，以跨越较长文档进行理解。

2024-11-25 21:01:30 759

原创 Ollama vs VLLM：大模型推理性能全面测评！

Ollama是一个支持在Windows、Linux和MacOS上本地运行大语言模型的工具。它允许用户非常方便地运行和使用各种大语言模型,比如Qwen模型等。用户只需一行命令就可以启动模型。主要特点跨平台支持Windows、Linux、MacOS系统。提供了丰富的模型库,包括Qwen、Llama等1700+大语言模型,可以在官网model library中直接下载使用。支持用户上传自己的模型。用户可以将huggingface等地方的ggml格式模型导入到ollama中使用。

2024-11-23 20:38:14 9238 4

原创 linux ollama安装没有sudo权限

Ollama是一个支持在Windows、Linux和MacOS上本地运行大语言模型的工具。它允许用户非常方便地运行和使用各种大语言模型,比如Qwen模型等。用户只需一行命令就可以启动模型。总的来说Ollama降低了普通开发者使用大语言模型的门槛,使得本地部署体验大模型变得简单易行。对于想要搭建自己的AI应用,或者针对特定任务调优模型的开发者来说,是一个非常有用的工具。它的一些特性,如允许用户自定义模型参数,对模型进行个性化适配提供了支持。

2024-11-23 15:24:17 2241

原创 VScode如何Debug(调试)进入标准库文件/第三方包源码

VScode调试时默认只能进入用户自己编写的文件中，而如果想要进一步了解API内发生的数据变化细节，这项设置就不可或缺了。需要在launch.json中添加justMyCode设置项并将其置为false，注意逗号的位置。

2024-11-18 15:53:29 746

原创 vscode - 设置 Python 版本

在使用 vscode 编码 Python 时，选择合适的 Python 版本。

2024-11-12 15:51:59 1809

原创 torch.distributed.DistBackendError: [2] is setting up NCCL communicator and retrieving ncclUniqueId

CUDA 错误：可能存在 CUDA 错误或资源不足的情况，导致某个 GPU 无法正常工作。在运行代码之前，使用 CUDA_VISIBLE_DEVICES 环境变量来指定可见的 GPU。1.NCCL版本问题：确保你的 NCCL 和 CUDA 驱动程序版本兼容。某些版本的 NCCL 可能在特定的硬件或 CUDA 版本上存在问题。网络问题：如果你的训练在多台机器上进行，可能存在网络连接问题。不同版本的 NCCL 或 CUDA：确保所有节点上安装的 NCCL 和 CUDA 版本相同，并且它们之间是兼容的。

2024-11-04 21:30:28 968

原创 vscode python 自定义函数无法跳转到定义处，且定义处无法展示所有调用该函数的位置

Pylance版本自动更新，但在vscode的拓展商店中，插件的最新版本很有可能未经足量测试，导致存在较多问题。鼠标右键点击Python插件，选择”扩展设置“。文章知识点与官方知识档案匹配，可进一步学习相关知识。鼠标右键弹出选项，选择”安装另一个版本“。随便选择一个旧版，比如一个月前的版本。关闭此窗口，配置将自动保存更改内容。安装完毕后选择重新加载插件即可。460871 人正在系统学习中。

2024-11-03 14:36:29 376

原创 Docker desktop 安装到指定目录

Docker desktop默认安装到C盘，且安装包无法指定安装目录，这将占用较多的系统盘空间。打开Powershell，cd到安装包目录，使用。安装完成后，没有链接，很干净，启动也很正常。

2024-10-12 11:19:10 1478 1

原创一文搞懂Python文件读取报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

gbk将一个汉字编码为2个字节，也就是每两个字节可解码为一个汉字，而一个字节无法解码，故报错，这也就解释了报错信息后面的：incomplete multibyte sequence（不完整的多字节序列）使用这个参数，相当于我们就告诉了Python：我们这个文件是用utf-8编码的，你一会儿对这个文件解码的时候，就用utf-8解码，不要用gbk解码。由于二者对于汉字的编码方式是不一样的，解码时又恰好出现了多余的无法解码的字节，因此就出现了报错。首先我们得知道这个错误是什么意思。

2024-08-07 21:59:55 1868 2

原创 git拉取代码报443错误：Failed to connect to github.com port 443 after 21044 ms: Couldn‘t connect to server

【代码】git拉取代码报443错误：Failed to connect to github.com port 443 after 21044 ms: Couldn‘t connect to server。

2024-08-07 20:45:08 214

原创 Vue中@click.stop与@click.prevent

如果用@click.stop,此时子组件（节点）会阻止父组件（节点）的click方法执行，即阻止父节点冒泡。运行结果先alert（boxchild）在alert（box）stop:指的是阻止父组件（节点）的事件冒泡。

2024-08-06 20:21:08 653

原创 Vue中$emit传递一个或多个参数

子组件调用父组件，同时传递多个参数。

2024-08-03 13:17:57 247

原创 elementUI点击el-card选中边框变色

每个 el-card 绑定了 @click 事件，当点击卡片时，会调用 selectCard 方法并传递当前卡片的索引。要实现当选中某一个卡片时其边框颜色变色，你可以通过 Vue 的状态管理和条件绑定类来实现。使用 :class 绑定，根据 selectedCardIndex 的值来应用 is-selected 类。selectCard 方法更新 selectedCardIndex，从而更新选中的状态。.is-selected 类定义了选中时的边框颜色。knowledgeList 数组保存卡片的数据。

2024-07-30 17:23:03 1046

原创如何去掉element-ui的el-card自带的padding

最近在项目中有大量用到element-ui的卡片布局,但是它本身自带的padding就非常影响后面进行样式调整,所以我是直接写行内样式去掉padding,设置body-style就可以了.

2024-07-30 17:18:46 1038

原创解决npm install（‘proxy‘ config is set properly. See: ‘npm help config‘）失败问题

重装电脑系统后，使用npm install初始化项目依赖失败了，错误提示：‘proxy’ config is set properly…经过报错信息查询解决办法，最终找到了两个比较好的方案，在此总结一下，以便下次再遇到此类问题。

2024-07-18 14:54:59 1804

原创 pgvector相似度阈值批量查询并返回top K个结果

如果优先考虑文本召回率，即希望在相似度查询中尽可能多地召回相关的文本，那么使用HNSW（Hierarchical Navigable Small World）索引通常是一个较好的选择。在这个命令中，m和ef_construction是HNSW算法的参数，分别控制图的稀疏程度和索引构建时的搜索深度。通过使用HNSW索引并调整其参数，可以在保证查询效率的同时提高召回率，从而更好地满足你的需求。在有索引的情况下，这个查询会比没有索引的情况快很多，尤其是在数据量较大的情况下。

2024-07-18 09:52:21 1238

原创使用GPT3.5,LangChain，FAISS和python构建一个本地知识库

现在的一个简单理解是，FAISS并不能直接存储数据，它只是一个索引和搜索向量的工具，这个工具可以根据emdebbing的后生成的向量，从文本中匹配跟问题相关的内容出来。所以我们设计的时候应该得分成两步进行设计，一部分是生成本地文件的代码，一部分是加载本地文件的代码，当然加载本地文件就是直接写在业务代码里面，不需要单独拆出来了。LangChain则是对大语言模型技术所用到的一些功能进行了统一的封装，这使得我们可以利用本地的知识资源，以获得我们需要的信息，FAISS则是一个可以存储这种类型数据的向量数据库。

2024-07-16 17:57:11 1732

空空如也

空空如也