微调
文章平均质量分 94
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
微软推出BitNet蒸馏框架,实现1.58bit模型量化,内存仅需FP16的1/10,性能几乎无损。该方案在Qwen、Gemma等模型验证有效,推理速度提升2.65倍。框架通过三阶段实现:先优化模型结构,引入SubLN模块稳定训练;接着继续预训练;最后进行蒸馏微调。SubLN能有效控制低比特量化中的激活值方差,避免发散,确保收敛稳定。这一技术大幅降低硬件需求,被业界认为可能减少对高端GPU的依赖。原创 2025-10-23 07:15:00 · 1152 阅读 · 0 评论 -
大模型必知基础知识:13、大语言模型性能评估方法
本文介绍了大语言模型性能评估的方法体系,涵盖分类、回归、语言模型和文本生成四大任务的评估指标。分类任务采用准确率、精确率、召回率和F1分数;回归任务使用MAE、MSE、RMSE和MAPE;语言模型侧重交叉熵和困惑度;文本生成任务则使用BLEU等指标。文章还探讨了人工评估、大模型自动评估和对比评估等评估方法的选择与应用,为全面评估大模型性能提供了系统指导。原创 2025-10-22 07:30:00 · 1991 阅读 · 0 评论 -
大模型必知基础知识:12、大语言模型能力评估体系
本文系统介绍了大语言模型能力评估体系,从三个核心维度展开:知识与能力评估(包括任务导向的HELM框架和人类认知导向的AGIEval)、伦理与安全评估(涵盖3H原则、安全数据集、指令攻防和偏见检测)、垂直领域评估(针对复杂推理、环境交互和专业应用)。文章强调了大模型评估与传统NLP评估的本质区别,提出了多维度、系统化的评估框架,为客观衡量大模型性能提供了方法论指导,同时指出了未来评估工作向多语言、专业化方向发展的趋势。原创 2025-10-22 07:15:00 · 1306 阅读 · 0 评论 -
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解
大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能够有效压缩模型规模,同时保持较高性能。原创 2025-10-21 07:00:00 · 1200 阅读 · 0 评论 -
大模型必知基础知识:8、Transformer架构-如何理解学习率 Learning Rate
学习率(Learning Rate)是深度学习中的关键超参数,控制模型参数每次更新的步幅大小。本文通过"下山"比喻形象说明:学习率过大会导致模型在最优解附近震荡或发散;过小则收敛缓慢且易陷入局部最优。学习率的工作原理是结合梯度方向决定参数更新幅度(公式:w_new=w_old-η×∇L)。实际应用中需要平衡收敛速度和稳定性,初期可采用较大学习率快速下降,接近最优解时减小学习率精细调整。合理设置学习率能显著提升模型训练效率和最终性能。原创 2025-10-20 11:02:37 · 1788 阅读 · 0 评论 -
大模型必知基础知识:7、Transformer架构-大模型微调作用和原理详解
大模型微调技术解析:从通用到专业的AI进化之路 本文系统介绍了Transformer架构中大模型微调的核心技术。首先阐述了预训练大模型在专业领域应用时的局限性,指出微调在提升领域专业性、优化输出风格和降低训练成本方面的关键价值。随后详细解析了双阶段训练原理,包括预训练的基础知识积累和微调的专业能力培养。文章重点探讨了多种微调方法:全量微调的参数全面更新、参数高效微调(PEFT)的灵活调整策略、适配器插入的轻量改造以及低秩矩阵微调(LoRA)的高效优化。最后介绍了数据准备和开源训练框架(如DeepSpeed、原创 2025-10-20 10:39:38 · 1082 阅读 · 0 评论 -
大模型必知基础知识:2、Transformer架构-大模型是怎么学习到知识的?
大模型通过三阶段训练学习知识:1)预训练阶段,模型通过海量文本数据掌握语言基础;2)有监督微调阶段,使模型适应具体任务;3)强化学习阶段,通过人类反馈优化输出质量。核心技术包括Transformer架构的自注意力机制和多层前馈网络,通过反向传播调整数十亿参数。当前模型性能的关键瓶颈在于数据质量而非算法,高质量训练数据已成为核心竞争力。整个学习过程本质是将文本转化为高维向量表示,构建复杂的语义空间关系。原创 2025-10-15 19:06:10 · 1563 阅读 · 0 评论 -
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
如何在MacBook上使用MLX框架微调Qwen3模型 本文介绍了在MacBook上使用苹果MLX深度学习框架微调Qwen3大语言模型的方法。通过MLX-LM工具包,作者展示了如何利用苹果芯片的统一内存架构高效训练模型,仅需2分钟即可完成500步训练,内存占用低于2GB。教程包含数据准备(使用self-cognition数据集)、模型配置(Qwen3-0.6B)、Lora微调参数设置,以及模型部署为API服务的完整流程。实验证明,微调后的模型能成功学习新的身份信息,单请求推理速度可达10toks/s。文章还原创 2025-10-14 06:45:00 · 830 阅读 · 0 评论 -
Markdown:为大模型注入高质量非结构化数据,适用于微调、RAG、提示词
Markdown:提升大模型数据质量的理想中间格式 在当前大模型应用中,数据质量直接影响模型表现。传统非结构化数据(PDF、Word等)存在三大痛点:格式复杂干扰理解、Token使用效率低、结构信息易丢失。Markdown作为轻量级标记语言,凭借其原生亲和性(大模型训练时已接触大量Markdown数据)、Token高效性(比HTML节省60%字符)和结构保持性,成为连接非结构化数据与大模型的理想桥梁。通过专用工具将各类办公文档转换为Markdown格式,可显著提升RAG、摘要生成等AI任务的效果,同时降低3原创 2025-10-13 11:08:24 · 896 阅读 · 0 评论
分享