大模型微调教程-CSDN博客

原创 5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库（含本地部署）

看到这里，相信你已经找到最适合自己的 DeepSeek 个人知识库方案了。如果你和大多数人一样，选择使用官方 API ，那就不用再为性能和本地硬件资源发愁；如果你恰好有充足的算力和技术储备，本地部署也是个不错的选择。不过，在整个过程中，我想和你分享的不仅仅是这些技术细节。而是一个中国团队能做出世界级大模型，一个需要 +86 才能注册的大模型。很庆幸，我们能作为中国 AI 技术进步的见证人。当然，暂时的领先不是终点。但 DeepSeek 给我们带来的，是“中国也可以”这份信心。

2025-02-05 16:07:16 9727 2

原创 2024年国内外最新AI大模型汇总（含ChatGPT、Claude、Kimi、文心、天工、讯飞、通义等10大主流AI大模型）

两年前，我和你谈论AI搜索时，你可能觉得我在做梦。但现在，梦想已经成真——信息搜索，知识工作者的新武器正如鲁迅先生所说：“输入的是垃圾，输出的也是垃圾。”在这个信息爆炸的时代，搜索能力成为了衡量知识工作者能力的关键。AI搜索的崛起AI搜索作为AI领域的热门赛道，正吸引着各路英雄豪杰。搜索引擎的两大类别：就像是我们的_私人助理，随时待命_，通过对话就能理解我们的需求，提供精准搜索结果。比如chatgpt、kimi、万知等。：这类搜索引擎则将AI技术融入搜索过程，让搜索结果更个性化、多样化。

2024-09-19 17:26:48 28449

原创用国产长文本大模型写小说，这个太强悍了 !

GLM-4-Long是智谱 BigModel开放平台（bigmodel.cn）推出的一款先进语言模型，适用于需要大规模文本生成的应用场景。GLM-4-Long有很多的实际应用场景：比如说，解读企业年报、学习论文文献、公司财务报表、阅读长篇小说甚至是分析总结长视频。关键是价格非常亲民，100万 tokens 只需1元，这简直是白给了，良心定价！2。

2024-09-16 18:00:00 8506

原创收藏备用！Java程序员转AI大模型：从技术沉淀到AI爆发的进阶之路

AI大模型不是Java程序员的“竞争对手”，而是“能力放大器”。转型大模型开发，绝非“放弃过往、从零开始”，而是基于Java技术栈的“升维升级”——用AI能力提升Java项目的智能化水平，用Java工程化能力解决大模型落地的核心难题，这种双向赋能的复合型能力，正是当前市场最稀缺的。当前大模型技术正处于“技术爆发期+人才缺口期”，正是Java程序员入局的黄金时机。只需投入1-2个月时间，掌握Spring AI与PyTorch基础，完成一个“Java+AI”实战项目，你的简历就能在众多求职者中脱颖而出。

2025-12-18 13:52:19 333

原创必学收藏｜AI Agent架构全解析：从ReAct到LangGraph设计模式

本文全面介绍了AI Agent的五大架构类型(反应型、审议式、混合、神经符号和认知)及LangGraph中的三大设计模式(多Agent系统、规划Agent、反思批判)。详细阐述了各架构特点、应用场景和优缺点，从基础到高级展示了AI Agent构建方法，强调选择合适架构的重要性，提供丰富代码示例和实现思路。

2025-12-18 13:48:29 639

原创【必收藏】2026程序员必学大模型：风口期入局指南，错过再等十年！

文章指出当前就业环境下大模型领域急缺人才，而传统IT岗位面临裁员风险，建议程序员抓住这一技术风口尽早入局。文章详细介绍了大模型的定义、类型及发展背景，并提供了系统化学习资源，包括成长路线图、视频教程和实战项目等。通过掌握大模型技术，程序员可以在AI时代抢占先机，提升职业竞争力。

2025-12-18 10:35:57 573

原创【建议收藏】AI大模型时代程序员必看：5大高薪岗位解析与职业发展路径

AI大模型时代催生大量高薪岗位，如算法工程师、数据科学家等，2024年产业规模突破7000亿元，人才缺口超500万。AI技术已深度融入多领域，相关岗位年薪可达40万元。文章分析了AI在各行业的应用场景及影响，提出8大核心应用方向，为年轻人提供清晰职业规划路径。

2025-12-18 10:32:28 432

原创【强烈收藏】35岁程序员转行大模型领域：从入门到精通的完整指南

文章为35岁程序员提供了转行大模型领域的8步系统指南：掌握基础知识、实践操作、关注行业动态、建立专业网络、考虑继续教育、技能迁移、职业规划和寻找机会。同时提供成长路线图、视频教程和LLM学习资源等实用材料，帮助程序员系统性地学习大模型知识，实现职业转型。

2025-12-18 10:31:24 897

原创收藏！Java程序员转大模型：从入门到实战的完整指南，薪资翻倍就这么干

AI技术迭代太快，等你“学完所有知识再开始”，早就错过了机遇。Java转大模型的优势远大于挑战：你不用从零学编程，不用重新理解工程逻辑，只需补全AI相关的“知识模块”，再通过项目把两者结合起来。3个月后你会发现，大模型不是“跨界难题”，而是你职业升级的“加速器”。AI浪潮里，你的Java技术+大模型能力，会成为最硬的竞争力——现在就开始，为时不晚。

2025-12-17 14:45:57 523

原创【收藏必备】大模型RAG技术全解析：零基础也能掌握的检索增强生成技术

RAG（Retrieval Augmented Generation，检索增强生成）技术最初源于2020年Facebook的一篇论文——《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。是的，2020年就已经提出了这项技术。这篇论文要解决的一个问题非常简单：如何让大语言模型使用外部知识进行生成。通常，预训练模型的知识是存储在参数中的，因此模型无法了解训练集之外的知识（例如搜索数据、行业知识）。

2025-12-17 14:45:00 356

原创大模型应用开发者必看：腾讯太极平台RAG到MCP-Agent技术全解析（建议收藏）

接下来详细介绍 RAG 技术的原理，其主要包括数据准备与知识库构建、知识召回与生成增强两个阶段：数据准备与知识库构建：原始数据处理：将各类异构的原始数据（如 web 文档、Word、PDF 等）进行清洗与格式转换，完成信息抽取，使其便于后续处理；文档切片（Chunking）：将处理后的文档分割成较小的片段，避免大模型处理时超出上下文长度限制，同时提升模型生成回答的速度；

2025-12-17 14:42:01 740

原创 AI裁员潮下的破局路：从执行者到超级个体，大模型学习指南【建议收藏】

这场裁员潮是商业文明底层逻辑的重构。AI不仅改变工作方式，更重新定义"工作"本身。企业面临生存之战，谁能率先完成"人力驱动"到"算力驱动"的转型，谁就能在未来竞争中占据主动。个人面临危机，去拥抱AI，成为驾驭工具的"超级个体"，打造自己的"产品化服务系统"，这才是穿越效率革命的唯一出路。未来已来，准备好了吗？

2025-12-16 14:36:14 523

原创【必收藏】LLM大模型原理全解析：从预训练到RLHF，一文带你彻底搞懂大语言模型的神奇魔法

从整体上看，训练LLM主要包括两个关键阶段：预训练（Pre-training）后训练（Post-training）：微调、RL和RLHF。上述流程整合了预训练、微调、RLHF等核心阶段，适用于自然语言处理和多模态大模型：1.数据准备数据收集：根据目标领域收集海量无标注数据（预训练）或少量标注数据（微调）。清洗与增强：去除噪声、重复项，进行分词/标准化（文本）或裁剪/旋转（图像）。划分数据集：预训练无需标注；微调需划分训练集/验证集/测试集（比例通常为8:1:1）。2.

2025-12-16 14:34:42 532

原创【强烈推荐】大模型学习路径：技术人转型产品经理的实战建议

针对通信背景工程师转型大模型产品经理的问题，文章建议先理解产品层面而非急于卷技术，补齐应用思维并培养说服能力。三步学习路线包括：了解大模型应用全景、做小Demo实践、结合业务写PRD。强调发挥通信背景优势，定位为"懂大模型的业务产品经理"而非纯模型工程师，这样学习方向更清晰且能结合工作背景。

2025-12-16 11:23:03 900

原创程序员的AI开发入门指南：从零开始掌握大模型应用开发，轻松应对AI时代职场挑战

大模型基础、应用开发和模型能力三部分，从基础知识到OpenAI API、LangChain框架应用，再到开源模型和微调技术，通过聊天机器人、RAG、Agent等实际项目案例，帮助程序员系统掌握AI开发技能，克服学术门槛，快速上手AI应用开发。

2025-12-16 11:19:35 1239

原创【必藏】后端开发寒冬已至？AI算法岗年薪35W+，百万缺口等你来填！

当前后端开发岗位面临锐减、薪资停滞困境，而AI算法岗因百万级人才缺口迎来红利期，平均年薪达35W。传统开发者可通过Python/Java基础和分布式系统经验，借助主流框架快速转型AI工程。文章提供大模型应用开发实战资源，帮助开发者抓住AI机遇，实现职业突破。

2025-12-16 11:18:13 853

原创 DeepSeek爆火背后：AI竞争格局重塑与企业机遇，程序员必学收藏指南

DeepSeek爆火引发AI竞争格局变革，降低AI应用门槛，推动金融、医疗、教育等行业应用爆发。企业需通过GPU算力优化、场景化小模型训练、引入私域知识、智能体协同框架等技术叠加来抓住机遇。MoE架构可能成为主流，软硬协同能力与安全合规是企业面临的主要挑战。中小企业可通过模型蒸馏等技术低成本创新，实现AI应用从头部企业垄断向长尾场景渗透。

2025-12-15 22:01:10 1090

原创必收藏！RAG知识库实战指南：AI产品经理如何构建高质量知识库？

本文详解RAG知识库构建与管理，强调知识库质量决定AI产品成败。阐述四大核心要素：内容权威性、语义完整性、结构化与元数据丰富、动态可维护性。通过银行智能客服案例展示优化效果，给出从最小可行知识集开始、监控检索失败率等行动建议，帮助AI产品经理打造可靠、鲜活的知识体系，提升AI产品准确性和用户体验。

2025-12-15 21:58:37 682

原创收藏必备！智能体工程：解决大模型“上线秒变智障“的终极指南

智能体工程是通过"构建、测试、上线、观察、优化、重复"的循环迭代，将不稳定的大模型系统打磨成生产级可靠应用的方法论。它需要产品思维、工程能力和数据科学三种能力配合，与传统软件开发不同之处在于强调上线是为了学习而非完美。成功的团队将生产环境视为最佳老师，通过持续追踪和系统性优化，解决智能体不可预测性问题，让AI系统真正稳定可靠。

2025-12-15 21:57:24 736

原创必藏！AI大模型入门到进阶学习大纲，程序员小白速取

2025年堪称大模型“爆发元年”，ChatGPT的横空出世让大语言模型从实验室走进大众视野，如今多模态大模型更是层出不穷。对于程序员和技术小白来说，这既是风口也是挑战——掌握大模型技术，就等于握住了未来5年的技术主动权。

2025-12-15 15:00:00 643

原创收藏！程序员破局必看：AI大模型是你超车的最佳赛道

当下程序员职场的“内卷”早已不是新鲜话题——传统开发领域人才扎堆饱和，不少同行明明技术扎实，却陷入晋升停滞、薪资“原地踏步”的困境。而AI技术的爆发式增长，正像一道劈开迷雾的光，成为打破职业瓶颈的关键风口。对于想寻求突破的程序员来说，抓住这波大模型浪潮，就等于握住了职业升级的“加速器”。迈入2025年，AI技术早已不是实验室里的概念，而是全面渗透到金融、医疗、工业等各行各业的核心生产力，风口优势愈发突出。身为传统开发赛道的从业者，你是否也曾遭遇过这些“职场尴尬”？

2025-12-15 14:53:01 937

原创【收藏】RAG技术详解与实战：企业级RAG系统快速搭建指南（小白友好）

RAG 不是什么高深技术，本质是 “让大模型用好企业自己的数据”。对中小企业来说，它是最低成本落地 AI 的方式 —— 不用组建算法团队，不用反复训练模型，用现成工具组合，几小时就能搭建一套专属 RAG 系统。现在你可以试着从核心场景入手，比如先搭建一个内部知识库查询系统，让员工不用再翻几百页文档找答案；后续再扩展到客户服务、合同审核等场景。随着数据的积累，RAG 系统会越来越好用，真正帮企业提高效率、降低成本。

2025-12-15 14:51:39 1034

原创收藏！大模型入门全解析：从定义到实战，小白&程序员必看指南

大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。大模型是一个简称。完整的叫法，应该是“人工智能预训练大模型”。预训练，是一项技术，我们后面再解释。我们现在口头上常说的大模型，实际上特指大模型的其中一类，也是用得最多的一类——语言大模型（Large Language Model，也叫大语言模型，简称LLM）。除了语言大模型之外，还有视觉大模型、多模态大模型等。现在，包括所有类别在内的大模型合集，被称为广义的大模型。

2025-12-14 11:30:00 752

原创必藏！AI智能体五大核心模式全解析，程序员入门大模型的关键指南

范式名称英文名称洞察Essence反思模式自我意识的萌芽，AI具备自省与自我修正能力工具调用模式心智的外延，主动借助外部工具实现认知与能力扩展推理-行动闭环知行合一，通过推理-行动-反馈循环实现实践性成长规划分解模式目的性理性，目标设定与任务分解，动态自组织优化多智能体协作模式社会性智能，分工协作与自治博弈，迈向人工社会。

2025-12-14 09:15:00 1885

原创收藏！大模型从入门到实战全攻略：小白&程序员必看的AI成长手册

模型是实现输入到输出映射关系的计算过程集合。简单示例：若输入x需得到2x，对应的函数y=kx（k=2）复杂场景：当输入为多个变量（x1、x2、x3…），经多步计算得到目标输出时，这套完整的计算流程即为模型，其中的W1、W2、W3…就是我们常说的参数。

2025-12-12 15:40:33 775

原创【收藏级】2025年智能体(Agent)全场景应用指南：程序员与企业IT负责人必看

本文详细介绍了2025年AI智能体(Agent)的发展现状与选型指南。作者通过实测23款主流产品，提出了选择Agent的三大黄金标准：目标理解能力、跨系统执行能力和安全可控性。按领域推荐了6款顶尖Agent产品，包括企业通用、低代码开发、知识管理、个人生活、开发者和客服场景的解决方案，并提供了实用避坑建议，帮助读者找到适合自己的智能工具，提升工作效率。

2025-12-12 11:43:36 909

原创【强烈收藏】AI智能体开发全攻略：大模型应用进阶之路

文章介绍了AI智能体的概念及其"四个自主"核心特征，详细分析了协议层(A2A、MCP、AG-UI)的发展现状，框架层按不同场景推荐了多种开发框架，并介绍了国产平台如Coze、Dify企业版和腾讯云智能体平台。文章强调，未来智能体只需支持A2A+MCP协议即可实现"对话互通、工具共享、界面互通"，打破厂商锁定。对开发者而言，掌握AI智能体技术是紧跟AI协同发展的必要技能。

2025-12-12 11:37:02 1035

原创向量数据库选型宝典：RAG系统性能优化指南，程序员学习收藏必备

本文详细介绍了向量数据库在RAG系统中的应用和选型指南，对比了2024-2025年最主流的7种向量数据库(Pinecone、Chroma、Weaviate等)，提供了基于数据规模、托管需求的决策框架，分析了性能基准、迁移策略和成本对比，并展望了多模态检索等技术趋势。文章强调应根据实际场景进行概念验证，并定期重新评估技术选型。

2025-12-12 11:01:18 723

原创【收藏】深入理解大模型Agent：架构设计与实际应用案例解析

大模型Agent是一种基于大语言模型的智能实体，拥有对环境信息的感知能力、自主理解与决策能力以及执行行动的能力。换言之，它是运行于大模型之上的程序系统，能够模拟独立思维过程，动态调用外部工具，并通过多步骤执行以实现既定目标的智能存在。大模型Agent正成为AI应用的新型主流范式，其在技术架构上也实现了重要演进，从传统的过程导向架构转向以目标驱动的架构模式。

2025-12-11 14:33:25 838

原创【干货收藏】大语言模型工作原理全解析：从输入到输出的技术奥秘

本文系统介绍了大语言模型的完整工作流程，从文本输入的分词与嵌入，到通过Transformer架构和自注意力机制理解上下文，再到最终输出的生成过程。详细解释了位置编码、长文本处理等技术概念，并结合DeepSeek V3等实际案例说明。同时提供了上下文优化、耗时控制、多Agent协同等工程实践指导，帮助读者更好地理解和使用大模型。

2025-12-11 14:31:23 983

原创【干货收藏】大模型应用开发从小白到入门：模型能力与业务需求结合全解析

文章记录了作者从大模型开发小白到入门的成长历程，初期误以为大模型开发仅是调用API，中期按流程开发却结果不理想，后期通过理解模型核心能力并采用智能体+工具方式实现业务价值。真正入门的关键在于不仅掌握开发流程，更能将大模型能力与业务需求有效结合，实现从"能做"到"能用"的质变。

2025-12-11 10:59:36 777

原创【强烈收藏】AI产品经理转型秘籍：向成功者学习，不再被时代淘汰

AI时代已经到来，产品经理需要积极拥抱AI转型。AI不会淘汰产品经理，但会淘汰不会AI的产品经理。转型关键是向已经取得成果的人学习，而非被网络噪音干扰。人人都是产品经理大会是学习AI的绝佳机会，汇集了如腾讯音乐、金山办公等实干家分享AI落地经验，是产品经理把握AI时代机遇的最佳平台。

2025-12-11 10:57:51 1169

原创收藏！小白/程序员如何进入AI领域？技术与非技术双路径全解析

本文为大学生提供AI领域入门指南，分技术背景（数学、编程、机器学习等）和非技术背景（AI工具应用、行业结合）两条路径。详细对比了目标岗位、核心技能、学习资源及职业发展，帮助读者根据自身情况选择AI入门方向，规划3-12个月的学习周期，快速进入AI领域。

2025-12-11 10:54:15 583

原创收藏！程序员必看：大模型时代，转型风口如何抓？

当下，AI大模型技术正以肉眼可见的速度重塑产业格局。对于身处技术前沿的程序员而言，这绝非简单的技术迭代，而是一次关乎职业高度的“战略机遇期”——大模型从实验室走向产业落地，不仅催生出大批月薪3万+的高薪岗位，更给传统开发、运维等岗位的从业者，开辟了全新的职业赛道。

2025-12-10 14:40:00 900

原创【收藏必备】构建工业级Function Call数据：从“手写“到“沙盒“的完整指南

文章阐述了构建大模型Function Call功能的训练数据方法，强调不能简单手写对话数据，而需构建"数据沙盒"系统。通过定义标签体系和业务变量，系统化组合生成全场景数据，解决手写数据覆盖率低、格式易错、无法学习流程等问题。这种数据工程方法使模型能学习意图判断、信息追问、工具调用顺序和异常处理等能力，形成高质量、一致性强、可扩展的训练数据，显著提升模型Function Call成功率。很多同学构建 FC 数据的方式是：但这套方法做不了真正的工程项目，因为它有致命缺陷：你写 10 条、100 条、甚至 50

2025-12-10 14:38:20 790

空空如也

空空如也