自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 [读论文]Deepseek V1

推理任务DeepSeek-R1在AIME 2024上获得了79.8%的Pass@1得分,略微超越了OpenAI-o1-1217。在MATH-500上,它获得了97.3%的得分,与OpenAI-o1-1217相当,并显著优于其他模型。在与编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,其在Codeforces上的Elo评分为2029,超越了96.3%的人类参赛者。在工程相关任务中,DeepSeek-R1的表现略优于DeepSeek-V3,这可能有助于开发人员在现实世界任务中的应用。

2025-01-26 16:05:22 944 1

原创 [DPO] 简单有效的后训练方法 Direct Preference Optimization,Your Language Model is Secretly a Reward Model

首先,在一个可控的文本生成环境中,提出以下问题:与常见的偏好学习算法(如 PPO)相比,DPO 在最大化奖励和最小化与参考策略的 KL 散度之间的权衡效率如何?我们发现,几乎无需调整超参数,DPO 的性能往往与强基线(如基于 PPO 的 RLHF)相当,甚至更优,同时在基于学习奖励函数的 "best of N" 采样轨迹中表现最好。重要的是,这些样本的权重是由隐式奖励模型 r^θ​ 对不偏好候选答案 yl​ 的评分高于偏好候选答案 yw的程度来决定的,权重由 β 缩放。由于偏好数据集是通过。

2025-01-04 10:15:29 1975

原创 phi-4 take away

进一步过滤了高质量的非合成数据集(即学术数据、书籍和代码数据),以提取长度超过 8K 的样本。phi-4 的最终数据混合中,将 30% 的训练标记分配给网页和网页改写数据源,并均匀分配到这两者之间。最后,将 20% 的标记分配给代码数据(合成和原始代码的混合),10% 分配给目标获取的数据(如学术数据和书籍)。a. 在推理密集型任务(如 MMLU 和 GSM8k)上,合成数据占比高的策略(S 和 S + WR)表现较好,特别是在 MATH 和 GSM8k 上提升显著。

2025-01-01 21:08:44 1353

原创 Gemma论文take away

在深度学习中,层归一化(LayerNorm)通常用于对每层的输入进行归一化,减轻梯度消失或爆炸的问题,但它可能会对每个特征的方差过于敏感。传统的自注意力(Self-Attention)为每个查询(Query)分别计算独立的键值对,而在MQA中,一个查询组可以共享相同的键值对。RoPE通过正弦函数的旋转对不同位置的表示进行建模,可以有效解决模型在处理长序列时对位置信息的表示问题,增强模型对长期依赖关系的捕捉能力,且易于与Transformer结构兼容。

2024-12-31 23:01:52 772

原创 【读论文】 AGENT AI: Surveying the Horizons of Multimodal Interaction

[2401.03568] Agent AI: Surveying the Horizons of Multimodal Interaction这篇论文《AGENT AI: Surveying the Horizons of Multimodal Interaction》探讨了“Agent AI”作为多模态交互的新兴领域及其在实现人工通用智能(AGI)中的潜力。主要内容包括:定义与背景:方法与框架:应用领域:挑战与展望:伦理与社会影响:这篇论文旨在为Agent AI的研究提供全面的基础知识和未来发展的方向,同

2024-11-25 11:13:58 2304

原创 【读论文】Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

[2411.14405] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions随着OpenAI推出的o1模型在逻辑推理能力上的突破,人们对大型推理模型(LRM)的兴趣逐渐增加。然而,目前的研究主要集中在标准答案明确的领域,如数学、物理和代码。Marco-o1旨在进一步拓展模型的推理能力,特别是在缺乏明确标准和难以量化奖励的开放性问题上,探索是否能实现广泛领域的有效泛化。现有的大型语言模型(LLM)通常通过强化学习(RL)优化在标准答

2024-11-23 17:59:58 513

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除