大模型扬叔-CSDN博客

原创大模型前景怎么样？大模型在各行各业中的应用现状及前景分析，收藏这篇就够了_大模型在制造业的应用前景

大语言模型近年来呈现出爆发式增长的趋势，以OpenAI ChatGPT为代表的私有模型迅速迭代更新，其能力渐渐接近人类的水平。同样，以通义千问、llama为代表的开源大模型也在迅速接近或超过ChatGPT。然而，大语言模型的发展目的终究是为了解决现实生活中的实际问题，大模型在各行各业中的应用情况到底如何？遇到了哪些问题？前景怎么样？本文将基于行业研报对这些问题进行分析和解答。• 软件开发：大模型能够自动生成代码，根据开发者的需求和描述快速提供代码片段，提高开发效率。

2025-05-13 15:45:14 933

原创如何估算大模型训练所需算力？（非常详细）从零基础入门到精通，收藏这篇就够了

ChatGPT横空出世引发了“百模大战”，算力需求成为焦点， GPU卡一时洛阳纸贵。训练一个大模型，究竟需要多少张GPU卡呢？2023年初写了篇文章《》大致总结了一下，但没有提到推导过程，今天有空展开聊聊。据估计，OpenAI训练GPT-4模型，很有可能应用了10000到20000张英伟达A100。按照马斯克的说法，GPT-5的训练可能需要3万到5万张H100，可见随着大模型的迭代发展，训练所需算力也呈爆发性增长。

2025-05-13 15:44:47 962

原创大模型学习路径，(非常详细）从零基础入门到精通，收藏这篇就够了

在掌握机器学习之前，理解支撑这些算法的基本数学概念非常重要。：这是理解许多算法（特别是深度学习算法）的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。：许多机器学习算法涉及到连续函数的优化，这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。：这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。有的时候临时抱佛脚也是可以的。

2025-05-13 15:43:34 980

原创 AI人才缺口达400万，名校的博士毕业生年薪最高700万（非常详细）从零基础到精通，收藏这篇就够了！

DeepSeek应届生年入百万，名校毕业有很强的优势“我感觉我的人生选择是我坐在这条船上，在即将驶出的时候，我划动了一把船桨，然后选择下船”。应届毕业生林清告诉作者。他同时拿到了大厂和创业新贵的offer，最后，他艰难地做了一个选择——大厂。而自学了11天大模型的许然，在去年毕业季拿到了上海一家医疗公司大模型算法岗的offer，成为AI风口下第一批就业的年轻人。工资开的不算高，仅是大厂的一半，但对非科班出身、没有相关实习经验的他来说这已经是最好的结果。

2025-05-13 15:42:52 754

原创 35 岁不失业秘诀，大模型这个赛道越来越吃香（非常详细)从零基础到精通，收藏这篇就够了！

根据行业报告，近年来**AIGC（AI Generated Content）**领域岗位数量井喷式增长，AI大模型产品经理作为连接技术与市场的桥梁，正扮演着越来越重要的角色。这一趋势的背后，是企业对AI技术应用的迫切需求和对专业人才的高度渴求。然而，市场需求的激增也带来了人才供给的紧张，尤其是既懂技术又懂市场的复合型人才更是难求。是一个在人工智能领域中具有关键作用的职位，他们负责策划、开发和管理基于大规模语言模型（如GPT系列、BERT等）的AI产品。

2025-05-13 15:42:17 853

原创什么是大模型微调？如何对大模型进行微调？大模型入门到精通，收藏这篇就够了

从GPT-3到ChatGPT，再到GPT-4和GitHub Copilot，微调在这些过程中发挥了重要作用。什么是微调？微调能解决哪些问题？LoRA又是什么？如何进行微调？本文将解答上述问题，并通过代码示例展示如何使用LoRA进行微调。微调的技术门槛不高，对于规模不超过100亿参数的模型，所需的硬件成本也不高（100亿参数的模型并非玩具，许多实际应用中会使用这种规模的模型）。即使是非专业的算法人员，也可以尝试微调自己的模型。除了ChatGPT和GitHub Copilot，微调还可以应用于许多其他领域。

2025-04-14 11:50:14 970

原创从零指令微调一个大模型：从数据清洗到模型训练实操（附代码和测试脚本）

本教程使用🤗HuggingFace TRL框架来完成微调代码的实现。TRL是一个强大且便于使用的微调框架，除了支持SFT外，也能轻松的通过接口调用DPO、PPO、GRPO等流行的强化微调算法。此外也完美兼容Transformers架构。

2025-04-14 11:49:37 1168

原创费曼讲解大模型参数微调——小白也能看懂

人工超级智能（ASI）——聚焦AI数据、算法、思想、伦理等深度洞察，致力于AI先进科技、先进思想、先进文化。23篇原创内容公众号。

2025-04-14 11:49:06 1030

原创从理论到实践：RAG、Agent、微调等6种常见的大模型定制策略 (2)

在这里，重新赋予时间价值，看到不一样观点。10年来，每日更新，从未间断，持续服务百万互联网人33篇原创内容公众号大语言模型（LLM）是基于自监督学习预训练的深度学习模型，训练数据量庞大、训练时间长，并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域，展现了在理解和生成类人文本方面的卓越能力。然而，这些通用模型的开箱即用性能并由于从零开始训练一个LLM模型需要大量的训练数据和资源，这对于中小型团队来说基本不可行。

2025-04-14 11:47:48 794

原创大模型应用开发入门系列(1)：Hello LangChain

我们在以前学习任何语言第一个入门小demo都是写一个Hell World！，同样我们在学习LangChain框架的时候，也以类似输出一个“Hell World！”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前，需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言，这里我们选用处理人工智能更主流的Python语言来进行学习，有关JavaScript LangChain库的文档，可以点击这里。

2025-04-01 11:41:18 829

原创 Java + LangChain = 王炸！

在本教程中，我们将详细探讨。

2025-04-01 11:40:48 920

原创小白入门大模型：LangChain

模型在高层次上有两种不同类型的模型：语言模型（language models）和文本嵌入模型（text embedding models）。文本嵌入模型将文本转换为数字数组，然后我们可以将文本视为向量空间。在上面这个图像中，我们可以看到在一个二维空间中，“king”是“man”，“queen”是“woman”，它们代表不同的事物，但我们可以看到一种相关性模式。这使得语义搜索成为可能，我们可以在向量空间中寻找最相似的文本片段，以满足给定的论点。

2025-04-01 11:40:09 1096

原创有史以来最详细的卷积神经网络(CNN)及其变体讲解！！！

卷积神经网络是多层感知机(MLP)的变种，由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来，视觉皮层的细胞存在一个复杂的构造，这些细胞对视觉输入空间的子区域非常敏感，称之为感受野。

2025-04-01 11:39:25 1114

原创了解卷积神经网络，看这一篇就够了！

*卷积神经网络（CNNs）**是现代深度学习领域的基础模型之一，其设计充分利用了图像数据的局部相关性和空间结构特点。在。

2025-04-01 11:38:12 977

原创最新AI大模型数据集解决方案：分享两种AI高质量代码数据集生产方案

随着AI大模型技术的快速发展，自动化的数据抓取工具逐渐成为了主流，尤其是在需要快速、高效、可定制化的数据抓取时，Web Scraper API工具成为了许多开发者和数据科学家的首选工具。与第一种方式不同，Web Scraper API工具提供了图形化界面以及灵活的配置选项，能够帮助用户更快、更高效地抓取数据。

2025-03-19 15:38:06 765

原创 AI大模型训练微调与数据集准备的系统性教程

为复杂任务配置多 GPU 环境并自定义依赖。从头构建自定义数据集并支持多模态数据。除了 Unsloth，还有许多工具适用于大型语言模型的微调。以下是几个主流工具的介绍及其特点。Unsloth：适合单 GPU 快速实验，易用性高，推荐初学者和资源有限时使用。DeepSpeed：适合多 GPU 大规模训练，适用于工业级任务。Megatron-LM：专注于超大规模模型，适合研究人员。FairScale：PyTorch 扩展，适合分布式训练场景。

2025-03-19 14:57:25 1695

原创 Ai大模型agent LangChain入门环境搭建2025最新

Ai大模型agent LangChain入门环境搭建2025最新真的从0到1，跑出代码！（可能格式问题，电脑浏览器更佳！因为自己淋过雨，所以想给你打把伞~LangChain入门此处为语雀内容卡片，点击链接查看：https://www.yuque.com/qiaokate/su87gb/iawv1isi0qu6fktx环境配置：Ubuntu 18或20都可以。

2025-03-19 14:56:08 986

原创 5分钟教你不写一行代码微调构建属于你的大模型（使用llama-factory微调Qwen大模型）

训练时为保证大模型的通用能力会使用多类别数据，例如：数学类别，代码类别数据等等来训练。训练后的大模型是一个“博学家”，具备回答所有类别基础问题的能力，但是在面对更深度的专业领域问题时，大模型的表现往往一般。为了让大模型在某个专业领域具备突出能力，需要使用专业领域的数据集，对大模型进行进一步的参数微调（继续训练），提升它在专业领域方面的表现。关于微调的概念大家可参考我的博文不懂这些概念，你敢说你了解大模型嘛？（一）—大模型“瘦身”指南。

2025-03-19 14:54:05 864

原创 4 步速通 LLM 微调：手把手带你用 SiliconCloud 打造领域大模型

此前，SiliconCloud 上线了语言模型的。通过简单的上传语料数据、创建微调任务，就可以获得专属微调语言模型。最近，SiliconCloud 的 LLM 在线 LoRA 微调，更是扩展了 Qwen2.5-32B、Qwen2.5-14B 以及 Llama-3.1-8B 模型作为微调基座模型，进一步丰富了微调的可玩性，也进一步降低了微调模型的训练、使用成本。事实上，微调一个自己的专属大语言模型非常简单。

2025-03-19 14:48:15 703

原创【全网首发】Llama3 微调项目实践与教程（XTuner 版）

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，XTuner 团队对 Llama 3 微调进行了光速支持！！！同时开源社区中涌现了 Llama3-XTuner-CN 手把手教大家使用 XTuner 微调 Llama 3 模型。XTuner：（文明点击阅读原文可直达）首先我们来回顾一下 Llama 3 亮点概览～

2025-03-19 14:40:31 1266

原创大模型微调技术详解：从理论到实践

大模型微调技术为AI应用提供了强大的定制化能力，使通用模型能够适应特定领域和任务需求。随着大模型广泛使用，使更多开发者能够创建自己的专业模型。无论是提升专业领域的回答质量，还是塑造特定的回答风格，微调都是一个强大而实用的工具。对于想要深入学习的读者，建议从小规模实验开始，逐步掌握数据准备、参数调整的技巧，最终构建满足特定需求的个性化大模型。

2025-03-18 14:06:10 1186

原创 Java大模型开发框架LangChain4j从入门到精通：对话和记忆

low-level模型api。提供generate方法用于对话，可以接收单个或多个消息。

2025-03-18 13:51:18 1139

原创大模型应用开发LangChain4j核心知识点和学习路线图

定义：RAG 通过在向 LLM 发送提示前检索并注入相关信息，减少失误，提升回答准确性。向量搜索：通过嵌入模型将文本转换为向量，基于余弦相似度匹配相关内容。混合搜索：结合向量搜索与关键词搜索（如 Azure AI Search 支持）。

2025-03-18 13:50:20 904

原创 Java程序员转型大模型应用开发：掌握这12步就够了！

Java程序员的核心竞争力在于企业级系统架构能力。

2025-03-18 13:49:30 863

原创大模型应用开发LangChain4j RAG实战实现向量存储的两种方案

LangChain4j 是一个用于构建和操作语言模型（LLM）应用的 Java 框架。通过实际的项目功能案例，看LangChain4j如何提高你开发AI应用的工程能力，帮助你逐步掌握该框架的核心概念和高级功能。AI专栏软件环境。

2025-03-18 13:45:55 742

原创告别Ollama，Java开发者专属LLM引擎来了

目前 Jlama 虽然提供的都是些小模型，适用于边缘设备应用场景，但 Jlama 让在 Java 生态中使用 LLM 变得更加简单和高效。无论是构建企业级应用还是开发创新项目，Jlama 都是一个值得关注的选择。

2025-03-18 13:43:19 806

原创 2万字长文！一文了解Attention，从MHA到DeepSeek MLA，大量图解，非常详细！

对于一个输入序列中的某个词，都会与序列中的所有词计算相关性。假设有一个输入序列：对于每个词，我们计算它与所有其他词的相关性，并赋予不同的权重，然后将这些信息进行加权求和，得到新的表示。当前这里的每个词都要在经过Embedding之后，再做权重转换。

2025-03-12 14:27:27 1317

原创 llm-engineer-toolkit：汇集120种大模型工程师必备库，从零基础到精通，理论与实践结合的最佳路径！

llm-engineer-toolkit 汇集了从提示工程（Prompt Engineering）、模型微调（Fine-tuning）到推理优化（Inference Optimization）等等超过 120 种 LLM（大模型）应用的开发涉及多个复杂环节的工具库。

2025-03-12 14:26:54 779

原创小白也能轻松理解的大模型入门锦囊！从零基础到精通，收藏这篇就够了！

*「微调（Fine-tuning）」**是给大模型提供特定领域的标注数据集，对预训练的模型参数进行微小的调整，使其更好地完成特定任务。通过微调，可以显著提升模型在特定任务上的性能。微调之后的大模型可以根据应用场景分为不同层次：通用大模型：类似于中小学生，具有广泛的基础知识，但缺乏专业性。行业大模型：基于特定行业的数据集进行微调。如金融证券大模型通过基于金融证券数据集的微调，可以得到一个专门用于金融分析和预测的大模型。这相当于大学本科生，具备了更专业的知识和技能。

2025-03-12 14:25:51 772

原创如何从0开始搭建一个大语言模型并进一步训练微调，从零基础到精通，理论与实践结合的最佳路径！

在ChatGPT掀起AI革命的今天，你是否想过亲手打造一个会思考的机器大脑？无需百万美元预算，从数据清洗到模型微调，从算力分配到参数调试，一口气搞定。

2025-03-12 14:24:49 430

原创模块化RAG技术路线图(Modular RAG Technical Map)：从基础Naive RAG 到高级Advanced，再到Modular RAG全方位技术解读

NDCG 倾向于赋予排在前面的相关文档更高的权重，是一种位置敏感的度量方法。各种方式对文档进行分词，通过诸如 BDK tree 等数据结构，将拆解出来的词元（token）进行倒排索引，在检索时也会对检索语句进行同样的分词处理，通过相同词元的匹配进行召回，再通过文本相关性的算法（如 TF-IDF / BM25 等）对结果进行打分排序，最终返回结果。首先用原始的模糊问题（AQ）进行检索，使用检索结果 + 原始问题生成多个可能的清晰问题（DQi），使用清晰问题进行检索生成，将所有的答案汇总做最终生成。

2025-03-12 14:24:17 977

原创大模型技术进阶路线，有了基础应该怎么进阶？从零基础到精通，理论与实践结合的最佳路径！

高性能大模型的打造，是一项复杂的系统性工程在上一篇文章中讲了学习大模型的基础路线，而如果是对有一定基础的人来说，应该怎么进阶呢？也就是说大模型更加高级的技术栈有哪些？一个好的基础能够让你在学习的道路上事半功倍，但绝对不是学习的终点，大模型技术也不外如是。大模型的进阶学习路线在上一篇的文章中介绍了大模型的基础学习路线，比如基础理论，编程，深度学习框架等等。以上技术都属于大模型技术的基础，不论是做学术研究，还是个人学习都已经足够；

2025-03-08 13:06:50 900

原创 14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星，从零基础到精通，理论与实践结合的最佳路径！

无论是面试找工作、还是自学创业，甚至想要在圈子内讨论一下AGI的潜力，但凡想要深度参与到AI浪潮中，不可避免的就是学习大型语言模型（LLM）的底层原理。但AI发展这么多年，论文、学习资料多如牛毛，并且更新换代极快，如何快速入门，学习到那些真正的基础知识，对于新手来说都是一个难题。最近，一位AI从业者在网上分享了自己的学习过程，仅用14天就学完了LLM所需要的核心知识，学习笔记在GitHub上斩获了675+星星，并且还在持续上涨。

2025-03-08 13:06:20 939

原创掌握推理大模型？这几个学习关键别错过，从零基础到精通，理论与实践结合的最佳路径！

学习推理大模型（如GPT-4、PaLM、LLaMA等）需要结合深度学习、自然语言处理（NLP）和逻辑推理的知识。：掌握线性代数、概率统计、微积分（如梯度下降）、信息论（如交叉熵）。：熟练使用Python，学习PyTorch或TensorFlow框架。：理解经典算法（如动态规划、搜索算法）和机器学习基础（如监督学习、无监督学习）。学习传统模型（如线性回归、SVM、决策树）。掌握深度学习基础：神经网络、反向传播、CNN/RNN、注意力机制。

2025-03-08 13:05:32 1231

原创大模型学习路线（超全面！超详细！）收藏这一篇就够了！从零基础到精通，理论与实践结合的最佳路径！

在深度学习领域，"大模型"通常指的是模型参数数量庞大、拥有深层结构的神经网络。这些模型的规模通常表现为网络中的参数数量，即模型中需要学习的权重和偏置的数量。具体来说，大模型可能包含数百万到数十亿的参数。

2025-03-08 13:04:27 1127

原创大语言模型(LLM)入门学习路线图，从零基础到精通，理论与实践结合的最佳路径！

Github项目上有一个，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。

2025-03-08 13:03:31 1228

原创牛！6个大模型的核心技术！零基础入门到精通，看这篇就够了！赶紧收藏！

大家好，我是花哥。本文我们谈下火爆的大模型背后，有哪些的核心技术！一、TransformerTransformer 是大模型的底层模型。在深度学习的早期阶段，循环神经网络（RNN）是处理序列数据的常用方法。尽管RNN及其变体在某些任务上表现良好，但它们在处理长序列时容易遇到梯度消失和模型退化问题。为了解决这些问题，Transformer模型被提出。

2025-03-07 18:57:02 865

原创目前最全，188+26个国产大模型！

国家互联网办公室于8月最新披露的数据显示，截至目前，。此外，地方网信部门也积极行动，登记在册的AI大模型数量达到了26家。本文罗列了大模型完整清单、常用大模型的特点以及国内大模型发展趋势。滑动查看188+26家完整名单这展现了大模型领域的快速发展，造就了百家争鸣的景象。如下介绍常用的大模型及其优缺点：**1. 百度——文心一言**特点与技术：文心一言是百度推出的知识增强型对话语言模型，拥有千亿级参数量，在知识问答、创意生成等任务上表现出色。它具备跨模态、跨语言的深度语义理解与生成能力。

2025-03-07 18:56:32 667

原创干货！中国人工智能大模型技术白皮书

尽管大模型技术具有广泛的应用前景和潜力，但仍需要解决其**可靠性和可解释性问题，降低应用部署代价，提高迁移能力，并加强安全与隐私保护。**这些问题的解决将是大模型技术未来能否得到广泛应用和发展的关键。

2025-03-07 18:56:01 932

原创央国企！入局AI大模型（附66家名单）

央国企，正加速在大模型领域的战略部署了，成为驱动大模型应用实践的强大引擎！据初步统计，已有66个由央国企成功实施的AI大模型项目，不仅在企业内部实现了成本节约与效率提升，更为外部广泛行业的数字化转型注入了强劲动力。在推进大模型发展的过程中，国资央企依据各自专长，对大模型的不同层级展开了针对性投入：在通用大模型（L0）的研发前沿，三大通信运营商担当起领航者的角色。凭借其深厚的算力网络基础与庞大的数据资源，加之在数字化转型征途上的早期布局，三大运营商已积累了深厚的AI技术底蕴与算法实力。

2025-03-07 18:55:30 1001

JAVA核心面试知识梳理大全.pdf

空空如也