“昨晚和算法组开会,他们说要在70B模型上跑个SFT,再搞个INT4量化试试…我全程微笑点头,内心疯狂百度。”
这可能是许多工科人初入大模型领域的真实写照。从 参数量级 到 知识蒸馏 ,从 Token 到 MOE架构 ,这些术语如同加密暗语,构建起技术圈的“信息护城河”。
大模型命名规则与专业术语科普
一、大模型命名规则解析
一、大模型命名规则:藏在字母数字里的“科技玄学”
1.1 名称篇:从盘古到MOSS,一场技术与文化的合谋
◼ 文化符号型命名:科技公司的“中二病”
案例1:神话IP争夺战
- 华为 “盘古” :借开天辟地之意,暗喻打破NLP技术边界
- 度小满 “轩辕” :以黄帝之名彰显金融大模型的“决策权威”
- “伏羲” (某科研机构未公开模型):易经八卦与AI推理的强行联动
实验室段子 :
> “给模型起名时,老板要求‘既要中国文化,又要有国际范儿’,最后我们决定叫 ‘孙悟空-72B’ ——72变隐喻多模态,B代表Billion参数,结果被法务部以IP风险驳回…”
◼ 技术硬核型命名:极客的浪漫
命名逻辑|典型案例| 解码
缩写控| GPT-4(Generative Pre-trained Transformer)|生怕你不知道它用了Transformer架构
功能宣言| Stable Diffusion| 直接声明技术路线(扩散模型+稳定性优化)
学术致敬| Claude|(信息论之父Claude Shannon)
大佬吐槽 :
> 李彦宏:“给大模型取名比给儿子取名还难——既要避免撞名,又得让投资人觉得这玩意儿值10个亿。”
大模型的名称通常由 名称 和 后缀 两部分构成,前者体现文化或技术理念,后者标注技术规格与应用场景。以下结合典型实例进行梳理:
1. 名称篇
- 文化象征型
- 历史/神话人物 :如华为“盘古”、度小满“轩辕”,借历史厚重感传递技术突破的寓意。
- 传统哲学 :如中科院“紫东太初”,蕴含道家“大道至简”的思想。
- 影视角色 :复旦“MOSS”取自《流浪地球》中的人工智能角色,强化科技感。
- 技术术语型
- 缩写命名 :如“GPT”(生成式预训练Transformer)、“BERT”(双向编码器表征)直接体现核心技术。
- 功能隐喻 :如“Stable Diffusion”指扩散模型技术,“Claude”致敬信息论之父香农。
2. 后缀篇
后缀通常包含以下技术信息:
- 版本号 :如“Llama 3”表示第三代模型,“GPT-3.5-turbo”为优化版本。
- 参数量级 :
- B(Billion) :如“70B”代表700亿参数。
- T(Trillion) :如“1T”表示1万亿参数。
- 训练信息 :
- 4e1t :4个训练轮次(Epoch)和1万亿Token数据量。
- 权重量化 :
- INT4/INT8 :量化位数越低,内存占用越小但精度下降(适用于边缘设备)。
- 技术方法 :
- Instruct :指令微调(优化任务理解)。
- SFT :监督式微调(针对特定领域优化)。
- 语言/数据集 :如“Chinese”表示中文优化模型。
示例解析 :
- DeepSeek R1 :R1可能代表某系列首版(如“R”为“Research”缩写),671B参数为满血版。
- Qwen-Max-0919 :Max指最大规模,0919为版本标识。
二、大模型专业术语精选
以下为高频术语分类科普,涵盖技术概念与行业“黑话”,实现从入门到“装专家”速成 :
1. 模型架构与训练
- Transformer :基于自注意力机制的神经网络架构,支撑GPT、BERT等模型。
- MOE(混合专家模型) :多个子网络协同处理任务,提升效率。
- 自回归模型 :按序列生成输出的模型(如GPT)。
- 涌现能力(Emergent Ability) :大模型表现出的意外能力,如上下文学习(ICL)、思维链(CoT)。
知识延伸 :
- 为什么说Transformer是“注意力不集中”的模范生?
传统RNN像逐字背诵课文,Transformer则像同时用10个手指点读——通过并行计算全局上下文,效率提升百倍。
2. 模型优化技术
- 知识蒸馏 :将大模型(教师)知识迁移至小模型(学生),降低部署成本。
- 软标签 :概率形式的输出,帮助学生理解类别间关联(如区分猫与老虎)。
- 温度参数 :调整输出分布平滑度,控制蒸馏效果。
- 微调(Fine-tuning) :在预训练模型上用特定数据继续训练,适应新任务。
- RAG(检索增强生成) :结合外部知识库提升生成准确性。
3. 压缩与部署
- 剪枝(Pruning) :移除冗余神经元,减小模型体积。
- 量化 :降低权重精度(如INT4),节省内存。
- 低秩分解 :用矩阵分解降低参数维度。
4. 评估与问题
- 交叉熵损失 :衡量模型输出与真实分布的差异。
- 鲁棒性 :模型对噪声或异常输入的稳定性。
- 同质化 :过度蒸馏导致模型多样性下降。
5. 其他关键概念
- Token :文本处理的最小单位(如单词或子词)。
- Epoch :完整遍历一次训练集。
- 硬标签/软标签 :硬标签为确定类别,软标签为概率分布。
6.训练黑话:4e1t、SFT、Instruct
- 4e1t :4个Epoch(全量数据训练4轮) + 1万亿Token数据
行业真相 :“很多论文中的‘4e1t’实际是‘4轮数据增强后的等效轮次’”
- Instruct :指令微调 → 相当于给模型报“学霸冲刺班”
- SFT(监督微调) :在垂直领域“开小灶”(例:法律文书/医疗诊断)
模型压缩与部署(硬件工程师必看)
◼ 知识蒸馏:让“学霸”教“学渣”的迁移艺术
- 经典套路 :
1. 教师模型 (大模型):输出概率分布(软标签)
2. 学生模型 (小模型):同时学习真实标签和教师预测
3. 温度参数 :调节软标签“模糊程度”(高温=知识更抽象)
行业真相 :
> “有些厂商的‘蒸馏’其实是把GPT-4的回答喂给自家模型——这和学霸借你抄作业有什么区别?”(某AI公司技术总监匿名吐槽)
◼ 量化与剪枝:给模型“减肥塑形”
技术 | 效果 | 副作用 |
NT8量化 | 模型体积缩小75% | 准确率下降约2% |
剪枝 | 移除50%神经元 | 可能“误伤”重要连接 |
实验室冷知识 :
> 剪枝算法命名潜规则: “OBD(最优脑损伤)” 这类名称,暴露出工程师对模型的“冷酷无情”。
三、测试与传播:你的“黑话等级”是多少?
3.1 自测题:快速诊断你的专业度
1. 听到“今晚跑个4e1t”时,你的第一反应是:
A. 新型健身计划
B. 要等4小时才能下班
C. 准备4轮训练+1万亿数据
2. 同事说“这个RAG效果不行”,他在抱怨:
A. 清洁机器人漏扫了角落
B. 检索增强生成模型准确率低
C. 公司团建剧本杀太难
大模型专业术语精选(50项),涵盖技术原理、行业黑话及实战场景,按核心领域分类编排,便于工科读者快速掌握关键概念:
---
一、模型架构与训练基础
1. Transformer :基于自注意力机制的神经网络架构,GPT、BERT的核心组件
2. 多头注意力(Multi-Head Attention) :并行处理不同语义特征的注意力机制
3. 位置编码(Positional Encoding) :为输入序列添加位置信息的嵌入方法
4. 自回归模型(Autoregressive Model) :逐词生成输出的模型(如GPT系列)
5. 自编码模型(Autoencoder) :通过重建输入学习特征的模型(如BERT)
6. MOE(Mixture of Experts) :混合专家模型,分治策略提升计算效率
7. 稀疏激活(Sparse Activation) :仅激活部分神经元,降低计算成本
---
二、训练与优化技术
8. 知识蒸馏(Knowledge Distillation) :大模型(教师)向小模型(学生)传递知识
9. 监督微调(SFT, Supervised Fine-Tuning) :用标注数据优化预训练模型
10. 强化学习微调(RLHF) :通过人类反馈优化模型输出(如ChatGPT)
11. 梯度裁剪(Gradient Clipping) :限制梯度值,防止训练爆炸
12. 早停法(Early Stopping) :验证集性能下降时终止训练
13. 学习率调度(Learning Rate Scheduling) :动态调整学习率提升收敛速度
14. 对抗训练(Adversarial Training) :添加扰动样本增强鲁棒性
15. 课程学习(Curriculum Learning) :从易到难逐步训练模型
---
三、模型压缩与部署
16. 量化(Quantization) :降低权重精度(如FP32→INT8)
17. 剪枝(Pruning) :移除冗余神经元或连接
18. 低秩分解(Low-Rank Factorization) :矩阵分解降低参数量
19. 权重共享(Weight Sharing) :多个层共用相同参数
20. 动态计算(Dynamic Computation) :根据输入复杂度调整计算量
---
四、评估与问题
21. 困惑度(Perplexity) :衡量语言模型预测能力的指标
22. BLEU/ROUGE :文本生成任务的自动评估指标
23. 幻觉(Hallucination) :模型生成与事实不符的内容
24. 灾难性遗忘(Catastrophic Forgetting) :微调后丢失原有知识
25. 过拟合(Overfitting) :模型过度适应训练数据,泛化性差
26. 长尾分布(Long-Tail Distribution) :少数类别占据多数样本的现象
---
五、核心算法概念
27. 损失函数(Loss Function) :衡量模型预测误差的核心指标
28. 交叉熵(Cross-Entropy) :分类任务常用损失函数
29. 反向传播(Backpropagation) :通过梯度更新网络权重
30. Dropout :随机屏蔽神经元防止过拟合
31. 批量归一化(Batch Normalization) :标准化层输入加速训练
---
六、数据与输入处理
32. Tokenizer :将文本分割为Token的工具(如BPE算法)
33. Embedding :将离散符号映射为连续向量
34. 数据增强(Data Augmentation) :通过变换扩充训练数据
35. 清洗(Cleaning) :去除噪声/重复/低质数据
36. 对齐(Alignment) :使模型输出符合人类价值观
---
七、行业黑话与实战术语
37. 炼丹 :调侃模型训练的随机性和玄学
38. 端到端(End-to-End) :输入到输出无需人工干预的流水线
39. 开箱即用(Out-of-the-Box) :无需微调直接部署的模型
40. 涌现能力(Emergent Ability) :模型规模突破阈值后突现的新能力
41. 思维链(Chain-of-Thought) :引导模型分步推理的提示技巧
42. 硬提示/软提示(Hard/Soft Prompt) :控制生成内容的引导方式
43. Few-Shot Learning :仅用少量样本适应新任务
44. 零样本学习(Zero-Shot Learning) :无需样本直接执行任务
---
八、高级应用与趋势
45. RAG(Retrieval-Augmented Generation) :检索增强生成技术
46. 多模态(Multimodal) :融合文本/图像/语音的模型(如GPT-4V)
47. AI对齐(AI Alignment) :确保模型目标与人类一致
48. 持续学习(Continual Learning) :模型持续适应新任务不遗忘
49. 联邦学习(Federated Learning) :分布式数据训练保护隐私
50. 具身智能(Embodied AI) :物理世界交互的AI系统(如机器人)
---
术语使用场景示例
- 工程师吐槽 :“这个175B的MOE模型跑一次SFT,简直是炼丹渡劫!”
- 产品经理需求 :“我们需要一个开箱即用的RAG方案,别搞RLHF那种玄学!”
- 学术讨论 :“通过动态计算+低秩分解,可能缓解长尾分布下的过拟合问题。”
---
结语:掌握“黑话”,才能打破技术信息差
从 命名玄学 到 术语黑话 ,大模型领域的每个符号都在诉说技术进化的密码。当我们破解了“70B”“SFT”背后的隐喻,便能更清醒地看待行业宣传的狂欢与陷阱。