微软Phi-4
https://github.com/microsoft/PhiCookBook
前言
Phi-4系列模型上新了!来自微软的论文。
Phi-4系列模型包括56亿参数Phi-4-multimodal,集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。
今天先介绍的是Phi-4,一个来自微软的14B大语言模型,之后会陆续介绍多模态模型Phi-4-multimodal以及Phi-4家族的其他模型。
Phi-4通过合成数据和优化训练流程,在推理任务中表现出色。特别是在STEM相关的问答任务中超越了其教师模型GPT-4o。
Code:https://github.com/microsoft/PhiCookBook
后台回复“20250303”,可获得下载完整论文中文PDF的方法。
小编一点不成熟的理解和Idea
Phi-4重点在于通过数据质量和训练方法来提升语言模型的性能。所以这篇技术报告非常细节,有很多看起来不“高大上”但是非常“实用”的细节。大模型还是得关注工程细节呀。
优点与创新
-
合成数据生成方法的创新
训练过程中结合了合成数据,通过多代理提示、自我修正工作流程和指令反转等技术,构建了能够增强模型推理和问题解决能力的数据集。
-
高质量有机数据的筛选与过滤
精心策划和过滤了高质量的有机数据源,包括网页内容、授权书籍和代码库,提取种子用于合成数据pipeline管道,确保高深度推理和价值。
-
后训练技术的改进
引入了新的SFT数据集版本和基于关键令牌搜索的DPO技术,显著提升模型在推理任务上的表现。
-
强大的性能表现
尽管架构方面只是对Phi-3架构进行了最小限度的更改,Phi-4在推理密集型基准测试上表现出色,特别是在数学竞赛MATH和研究生级别的STEM问答(GPQA)基准上超越了其教师模型GPT-4o。
-
防止过拟合和数据污染
改进了数据去污染过程,确保评估结果不受不公平影响,并在2024年11月的AMC-10和AMC-12数学竞赛上测试模型,证明其在新鲜数据上的强大表现。
01
研究背景
研究问题:最新进展表明,数据质量的提升可以媲美甚至超越通过扩展计算规模获得的性能提升。phi-4要解决的问题如何在有限的计算资源下,通过改进数据生成和训练技术,显著提升语言模型在STEM领域的问答能力。
02
研究方法
这篇论文phi-4模型的方法还是比较朴实的,整体论文的思维导图如下图所示(感谢腾讯的图)。整个训练过程包含预训练、中期训练、后训练。和以往“预训练-后训练”的形式不同,加了一个中午训练,目的是进行上下文长度的扩展。除此之外,创新点有以下四点:
01
合成数据的生成
phi-4使用多种技术生成高质量的合成数据,包括多代理提示、自我修正工作流程和指令反转。这些方法使得生成的数据集能够诱导模型更强的推理和问题解决能力。
02
数据筛选和过滤
从高质量的有机数据(如网页内容、许可书籍和代码库)中精心筛选和过滤数据,提取种子用于合成数据管道,确保高深度推理和教育价值。
PS:有机数据的意思是自然数据,也就是从网络或者人群中直接收集到的,和合成数据相对。
03
训练课程优化
改变训练课程,创建新的预训练和中训练数据混合,增加合成令牌的分配比例。
04
训练课程优化
引入SFT数据集的精炼版本和基于关键令牌搜索的新技术来创建DPO对。
优点与创新
-
合成数据生成方法的创新
phi-4在训练过程中战略性地结合了合成数据,通过多代理提示、自我修正工作流程和指令反转等技术,构建了能够增强模型推理和问题解决能力的数据集。
-
高质量有机数据的筛选与过滤
精心策划和过滤了高质量的有机数据源,包括网页内容、授权书籍和代码库,提取种子用于合成数据管道,确保高深度推理和教育价值。
-
后训练技术的改进
引入了新的SFT数据集版本和基于关键令牌搜索的DPO技术,显著提升了模型在推理任务上的表现。
-
强大的性能表现
尽管对phi-3架构进行了最小限度的更改,phi-4在推理密集型基准测试上表现出色,特别是在数学竞赛(MATH)和研究生级别的STEM问答(GPQA)基准上超越了其教师模型GPT-4o。
-
防止过拟合和数据污染
改进了数据去污染过程,确保评估结果不受不公平影响,并在2024年11月的AMC-10和AMC-12数学竞赛上测试模型,证明其在新鲜数据上的强大表现。
03
实验和结果分析
01
Setting实验设置
-
数据集
自然数据集:收集了来自网页、书籍和代码库的高质量有机数据,并使用多种技术进行筛选和过滤。
合成数据集:使用多代理提示、自我修正工作流程和指令反转等方法生成合成数据。具体步骤包括从有机数据中提取种子,通过多阶段提示工作流程生成合成数据,并通过自我修正和指令反转技术进行改进。
-
数据混合
设计了预训练数据混合,分配30%的训练令牌给网络和重写数据,40%给合成数据,20%给代码数据,10%给目标获取数据。
-
训练过程
Decoder-only Transformer架构,预训练阶段使用线性预热和衰减计划,峰值学习率为0.0003,训练约10T令牌。中训练阶段将上下文长度从4K增加到16K。
-
。
02
结果和分析
结果
-
性能提升
phi-4在多个基准测试中表现出色,特别是在STEM领域的问答任务中,显著超过了其教师模型GPT-4o。例如,在GPQA和MATH基准上,phi-4的表现分别达到了56.1和80.4,而GPT-4o分别为50.6和74.6。
-
过拟合和污染防护
通过改进数据去污染过程和在新鲜的AMC数学竞赛数据上进行测试,确保了phi-4的性能不是由于过拟合或数据污染。
-
长上下文性能
通过增加上下文长度和使用高质量的非合成数据,phi-4在长上下文任务中的表现也得到了显著提升。
分析
关键技术1:合成数据生成技术
合成数据过程生成使用了多种技术,包括多代理提示、自我修正工作流程和指令反转。这些技术具体作用如下:
-
多代理提示
通过多个代理协同生成数据,每个代理负责生成数据的不同部分,从而提高数
据的多样性和复杂性。
-
自我修正工作流程
模型生成的初始响应会经过自我修正,通过反馈循环逐步改进输出,确保推理
和事实准确性。
-
指令反转
对于代码和其他任务,使用指令反转技术从现有代码片段生成相应的指令,
确保指令和输出之间的一致性。
这些技术使得生成的数据集能够诱导模型更强的推理和问题解决能力,弥补了传统无监督数据集的不足。
关键技术2:数据去污染技术,以确保评估结果的公平性
-
使用新鲜数据
在最终的模型评估中,使用了2024年11月的AMC-10和AMC-12数学竞赛数据,
这些数据是在所有训练数据收集之后收集的,确保模型没有接触过测试集。
-
依赖无污染基准
在优化模型时,依赖于设计为原始问题和无网络内容的基准,如GPQA。
-
长链思维模型
使用长链思维模型,这些模型通过生成长链的推理步骤来扩展推理时间计算,
而不是依赖于与训练数据重叠的基准。
通过这些措施,phi-4模型能够在评估结果中避免过拟合和污染的影响,确保其在推理任务上的表现是公平和可靠的。
关键技术3:后训练阶段的新技术
-
监督微调(SFT)数据集
使用高质量的用户提示数据生成多个模型响应,并通过LLM评估选择最佳响应。
-
直接偏好优化(DPO)
基于拒绝采样和LLM评估生成DPO对,特别是使用关键令牌搜索(PTS)
生成DPO对,专注于模型的关键推理步骤。
-
关键令牌搜索(PTS)
识别模型响应中对成功概率影响显著的令牌,并生成针对这些令牌的
偏好数据,减减少梯度稀释,提高信号质量。
-
拒绝采样
在SFT和DPO数据生成中,使用拒绝采样来确保模型在无法确定答案时
拒绝回答答,而不是生成虚假答案。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!