多模态大模型-CSDN博客

原创 DeepSeek R1 671B 完整版本地部署教程来了！！！

关于本地部署，大多数人使用的是蒸馏后的8B/32B/70B版本，本质是微调后的Llama或Qwen模型，并不能完全发挥出DeepSeek R1的实力。然而，完整的671B MoE模型也可以通过针对性的量化技术压缩体积，从而大幅降低本地部署门槛，乃至在消费级硬件（如单台Mac Studio）上运行。那么，如何用 ollama 在本地部署 DeepSeek R1 671B（完整未蒸馏版本）模型呢？一篇在海外热度很高的简明教程即将揭晓。作者主页：https://snowkylin.github.io。

2025-02-05 16:12:23 11810 1

原创深入浅出 AI 智能体（AI Agent）｜技术干货

随着人工智能技术的飞速发展，智能体（AI Agents）正逐渐成为人与大模型（如大语言模型）交互的主要方式。智能体是能够执行任务、解决问题并提供服务的 AI 系统，它们通过模拟人类的行为和决策过程，使得与大模型的交互更加自然、高效和个性化。智能体作为人与大模型交互的桥梁，不仅提高了交互的效率和质量，还扩展了大模型的应用范围。随着技术的不断进步，智能体将更加深入地融入我们的日常生活，成为不可或缺的智能伙伴。智能体（英文名：AI Agent 或 AI Bot）是指能够感知其环境并采取行动以实现某种目标的实体。

2025-01-04 17:14:34 21505 1

原创五款国产AI大模型大测评！Kimi，智谱清言，通义千问，文心一言，豆包谁更胜一筹？

AI大模型是指具有巨大参数量的深度学习模型，通常包含数十亿甚至数万亿个参数。原理主要基于深度学习技术，特别是神经网络和大规模数据的训练，它们通过分析大量数据来学习语言模式、知识表示和任务执行策略。AI大模型的训练过程通常包括以下几个步骤：数据预处理：对原始数据进行清洗、整理和标注，包括去除噪声、填充缺失值、归一化等操作；模型构建：设计并搭建神经网络，这包括确定网络的层次结构、神经元数量、激活函数等；模型训练：将预处理后的数据输入到神经网络中，不断调整神经元的连接权重使模型达到满意的性能；

2024-10-28 11:26:42 47714

原创 Ollama：一个在本地部署、运行大型语言模型的工具

所谓自定义模型就是不适用Ollama官方模型库中的模型，理论可以使用其他各类经过转换处理的模型Ollama库中的模型可以通过提示进行自定义。# 设置温度参数# 设置SYSTEM 消息SYSTEM """作为AI智能助手，你将竭尽所能为员工提供严谨和有帮助的答复。"""Modelfile文档One-API是一个OpenAI接口管理 & 分发系统，支持各类大模型。这里使用Docker快速进行部署。拉取镜像创建挂载目录启动容器访问IP:3001初始账号用户名为 root，密码为 123456。

2024-05-28 10:30:57 7844

原创【大模型实战案例】手把手教大家微调大模型 Llama 3

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，我们对 Llama 3 进行了微调！！！今天手把手教大家使用 XTuner 微调 Llama 3 模型。

2024-04-23 18:09:27 4580 2

原创 OpenAI的官方Prompt工程指南详解 - 看这一篇真的就够了

这个技巧偏开发者。普通用户可以跳过。因为模型具有固定的上下文长度，因此用户和助手之间的对话无法无限期地继续。解决此问题有多种解决方法，第一个是总结对话中的历史记录。一旦输入的大小达到预定的阈值长度，这可能会触发总结部分对话的查询，并且先前对话的摘要可以作为系统消息的一部分包括在内。或者，可以在整个对话过程中在后台异步总结之前的对话。这两种方法都行，或者还可以把过去的所有聊天记录存成向量库，后续跟用户对话的时候动态查询嵌入，也可以。

2024-04-10 10:42:26 12405

原创万字长文！AI智能体全面爆发前夜：一文讲透技术架构与行业机会

2025年，被广泛认为是 AI Agent（人工智能智能体）正式进入应用爆发的重要转折点。这一说法并非来自营销造势，而是由技术突破、产品形态变革与生态成熟度共同推动的阶段性标志。

2025-05-23 14:25:25 363

原创全网最全，一文全面汇总大模型技术生态！

大语言模型（Large Language Model, LLM）是人工智能领域的核心技术，基于Transformer架构，通过海量数据预训练和微调，实现对自然语言的深度理解与生成能力。其核心原理包含以下关键要素：预训练与微调：模型先在通用语料库（如网页、书籍、代码）上通过自监督学习捕捉语言规律，再通过特定任务数据（如问答、对话）进行微调，适配具体场景。注意力机制：Transformer的自注意力机制（Self-Attention）允许模型并行处理序列数据，解决了传统RNN的长距离依赖问题，显著提升训练

2025-05-23 14:13:55 299

原创从零到精通！Coze保姆级教程：3天让你拥有自己的AI数字员工

这款由字节跳动AI实验室研发的智能平台，堪称「（插图：分步骤截图带箭头标注）❝：企业用户记得勾选「团队协作」选项，可共享工作流（插图：控制台功能分区图）当输入商品信息 → 调用「爆款文案生成」技能 → 输出5种带货话术 → 自动同步到抖音剪映实操效果：某服饰店铺转化率从3%提升至8.7%热点监控：自动追踪100个关键词标题生成：每次产出20个候选标题素材匹配：从图库自动关联配图定时发布：全平台同步推送。

2025-05-22 15:13:30 443

原创一文解析四种主流LLM微调方法：Full-tuning、Freeze-tuning、LoRA、QLoRA

假设您现在是一位开发程序员，拥有一个功能强大的语言模型（LLM），现在希望利用它执行一些卓越的任务，例如进行文本分类、构建智能问答系统，或是在文本中识别关键信息。然而，你会发现问题随之而来：训练这样一个庞大的模型需要大量的计算资源和时间，您现有的计算机设备可能因此承受巨大压力，甚至因数据量不足而面临模型训练偏差的风险。

2025-05-22 15:07:54 405

原创 RLHF是什么？一文说清RLHF（人类反馈强化学习）的概念和实现过程

RLHF（Reinforcement Learning from Human Feedback）是一种结合了强化学习（Reinforcement Learning, RL）和人类反馈的机器学习方法。这种方法特别适用于那些难以通过传统监督学习方法获得高质量标签数据的情况。

2025-05-21 14:50:35 739

原创一口气讲清楚：LLM、MCP、EMB

LLM的全称为(Large Language Model)，即大型语言模型。它指的是一种基于深度学习技术的人工智能基础模型，通过大量的文本数据训练，来逐步具备理解和生成自然语言的能力。LLM的基本定义主要有三个：基于深度学习、处理自然语言、参数规模庞大。其中：基于深度学习：基于Transformer技术架构的神经网络，通过自注意力机制(Self-Attention)捕捉输入序列中的长距离依赖关系，实现对文本的全局理解。处理自然语言：执行问答、文本生成、翻译/对话等任务，是生成式AI的形式。

2025-05-21 14:42:22 650

原创一文讲清楚RAG、Langchain、Agent之间的关系和概念！

一文讲清楚RAG、Langchain、Agent之间的关系和概念！

2025-05-20 14:05:29 645

原创【科普】Docker 和 Docker Compose 命令行工具整理

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。所以我综合了大模型的所有知识点，给大家带来一套。我们这套大模型资料呢，会从。

2025-05-20 14:02:53 782

原创 RAG到底是什么？一文了解RAG原理！

2020年，首次出现了RAG这个概念，但其真正火起来也是自ChatGPT发布以后（2022年12月）才开始的。前面应用ChatGPT给出了官方一些的说明，本质上其给大模型带来的价值可以粗略提炼为：没有应用RAG技术的大模型在回答问题时是闭卷考试，而应用了RAG技术的大模型则是——通过外挂了一个知识库来实现开卷考试。

2025-05-19 15:24:09 1239

原创图谱增强检索生成（GraphRAG）实战教程：用 LlamaIndex 构建智能知识图谱

检索增强生成（RAG）技术在处理具体精确问题上表现优秀，但遇到需要主题性、全局理解的问题时却力不从心。为了解决这个难题，GraphRAG（图谱增强检索生成）应运而生，它融合了图谱（Graph）与RAG的优势，既精准又高效地处理大规模文本数据中的复杂查询。

2025-05-19 15:15:33 889

原创 AI大模型·白皮书 | 厦大团队：大模型概念、技术与应用实践：一文读懂大模型、DeepSeek与大模型···（140页）

在数字化浪潮汹涌澎湃的当下，大模型如同一颗璀璨新星，强势崛起并迅速成为科技领域的焦点。从最初的理论探索到如今在各个行业的广泛应用，大模型正以惊人的速度重塑着我们的生活与工作模式。它不仅是人工智能技术发展的重大突破，更是推动经济增长、提升社会治理效能、促进科技创新的关键力量。本报告将深入剖析大模型的核心概念、原理特点以及丰富多元的应用实践案例，旨在让大家全面了解大模型这一前沿技术，明晰其在当下及未来发展中的重要地位与深远影响，共同探索如何借助大模型的力量推动社会各项事业迈向新的高度。

2025-05-16 14:01:05 847

原创一步步教你如何构建一个通用的大模型智能体（LLM Agent）

为什么要构建一个通用的 Agent？因为它是一个出色的工具，可以用来原型化你的用例，并为设计你自己的定制 Agent 架构奠定基础。在我们深入讨论之前，先简单介绍一下LLM Agent。你可以选择跳过这一部分。

2025-05-16 13:55:02 657

原创 4.7万Star！《从零构建大模型》中文版！这个GitHub宝藏项目让你彻底理解LLM核心原理

2025 年，人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷，不断刷新人们对 AI 能力的想象。而支撑这一切的，正是大语言模型（LLM）——这个曾经只是大厂的专属！但问题来了：构建一个属于自己的大模型，真的非得依赖大团队、大算力、大预算不可吗？其实未必！Build a Large Language Model (From Scratch) 这本书，正在彻底打破这个思维定式。作者不仅深入讲解了 LLM 的理论和未来，更是在用一套极具操作性的工程路线图

2025-05-15 14:28:05 995

原创大模型：人工智能时代的“超级大脑” ——一文读懂大模型的基本概念、原理与入门指南

一、什么是大模型？大模型（Large Language Model, LLM），全称“大规模预训练语言模型”，是近年来人工智能领域最具突破性的技术之一。它通过海量数据和超大规模参数构建，能够完成文本生成、逻辑推理、多语言翻译等复杂任务，被誉为“通用人工智能的基石”。核心特征：参数量巨大（通常超过百亿甚至万亿）、训练数据规模庞大（涵盖互联网文本、书籍、代码等）、具备通用任务处理能力。典型代表：GPT-4、

2025-05-15 14:08:38 778

原创当AI遇上地图 | 武汉大学-DeepSeek驱动下的地图生成(46页PPT)

‌地图与AI的融合‌：随着人工智能（AI）技术的快速发展，地图制图领域正面临前所未有的变革。地图不再仅仅是静态的地理信息展示工具，而是融入了AI技术，实现了多维分布、多重属性、时空关系及其动态变化的智能表达。‌DeepSeek的作用‌：DeepSeek作为一种先进的AI技术，其在地图制图中的应用成为研究的热点，旨在通过智能化的手段提升地图生成与分析的效率与精度。

2025-05-14 13:58:15 915

原创【MCP实战】如何搭建自己的 MCP 服务器

Vibe Coding 正逐渐成为当前备受青睐的程序员人机协作模式。如今的程序员们，或多或少都会使用各种 AI 编辑器，不管是 Cursor、Windsurf 还是 Trae。倘若你还没有下载这些客户端，那大概率也试用过 Vscode 的插件，比如 Github Copilot。在与 AI 进行交流时，我发觉自己频繁地切换 AI 模型（像突然推出的 Gemini）以及客户端（从 Cursor 到 Windsurf，然后又切回 Cursor）。最让我感到困扰的是上下文的丢失。我总是得不断向 AI 解

2025-05-14 13:52:48 995

原创综述：从零构建RAG系统全面指南（含代码）

虽然大语言模型拥有卓越的推理能力，并且具备广泛的通用知识，但在检索精准信息、获取最新数据，或是给出可验证的答案时，它们往往面临挑战。检索增强生成（Retrieval-Augmented Generation，RAG）作为一种创新性的解决方案应运而生。该方法将大语言模型与外部知识源进行结合，有效地提升了大语言模型的性能。在本文中，我们会深入探究RAG的概念及其重要性，同时利用Python以及一些流行的开源库，从零开始搭建一个完整的RAG系统。

2025-05-13 14:38:23 968

原创入门AI产品经理，这些AI技术知识你必须要懂！

“外行看热闹，内行看门道”，只有懂行，才可以透过产品的表象，看到产品的本质。看到一个AI相关的产品，只有懂行，才可以第一时间知道该产品用了哪些AI技术，各个技术业界顶尖的供应商有哪些？可以从哪些方面考察这些供应商的能力？如果你要构建同样的一款产品，如何通过产品交互逻辑去构建、去定义这款产品？

2025-05-13 14:01:49 1409

原创 dify 应用实例：Qwen3 与传统合同审查模式正面交锋，最终赢家花落谁家？

2025 年 4 月 29 日，阿里巴巴正式推出开源混合推理模型 Qwen3。这一模型亮点多多，性能在诸多方面实现重大突破，下面一张图带大家快速看懂 Qwen3。

2025-05-12 14:56:08 901

原创吴恩达老师亲授的373页《LLM大模型入门到上头》PDF分享，自学转行，新手小白首选！！

LLM 正在逐步改变人们的生活，而对于开发者，如何基于 LLM 提供的 API 快速、便捷地开发一些具备更强能力、集成LLM 的应用，来便捷地实现一些更新颖、更实用的能力，是一个急需学习的重要能力。这本由吴恩达教授与OpenAI联合推出的《LLM大模型入门到上头》，从理论到实践带你全方位掌握大模型技术，一共373页PDF，从基础知识到高级应用一一为你剖析。这不仅是一本教程，更是一个大模型应用开发的全新范式的展示，无论你是为了学术研究还是商业应用，这本书都将为你打开大模型技术的大门，引领你走向人工

2025-05-12 14:37:41 695

原创吴恩达力荐LangChain经典课程-《LangChain大型语言模型(LLM)应用开发》免费分享

LangChain的创始人是哈里森·蔡斯和安库什·戈拉，他们于2023年在美国加利福尼亚州创建了这家人工智能公司。哈里森·蔡斯担任首席执行官。该公司于2024年4月16日成功筹集了3500万美元，并入选了《2024福布斯AI 50榜单》，成为备受瞩目的人工智能公司之一。 LangChain的应用范围非常广泛，可以帮助用户从各种数据源中获取信息，并根据需求采取相应的行动，比如发送邮件等。它是目前最火的大语言模型应用框架之一，即使不直接使用，也可以作为其他项目的参考和借鉴。通过LangChain，开

2025-05-10 13:59:54 812

原创 DeepSeek + Dify ：零成本搭建企业级本地私有化知识库保姆级喂饭教程

最近，DeepSeek大火，想必大家都有所耳闻，各路媒体从各个方面报道了DeepSeek这家神秘的公司的各方面消息，这家低调的技术公司用一组硬核数据回应了所有关注：千亿参数规模下实现0.5元/百万tokens的API调用成本，91.5%的中文基准测试得分，推理效率较传统架构提升5倍。DeepSeek的AI大模型作为国产之光，不仅刷新了国产大模型的天花板，更标志着普惠AI时代的实质性突破。我们看新闻的同时，不应该只停留在听说的层面上，应该深入体验并实践于各种应用场景：有人用它来帮自己写文章，有人用它来帮自己

2025-05-10 13:47:01 738

空空如也

空空如也