AI学习指南DeepSeek篇(7)-论文导读 DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文简介

  • 论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
  • 发布时间:2024 年 1 月
  • 论文地址arXiv链接
  • 主要内容
    • 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
    • 支持多步学习率调度器,提升训练效率。
    • 在预训练和对齐(监督微调与 DPO)方面进行了创新。
    • 使用了一个包含 2 万亿字符的双语数据集进行预训练,比 LLaMA 的数据集更大。
    • DeepSeek LLM 在多个基准测试中表现优于 LLaMA,特别是在代码、数学和推理方面。

摘要

论文主要讨论了开源大型语言模型(LLMs)的快速发展以及如何通过 DeepSeek LLM 项目来推进这种发展。作者深入研究了规模定律,并提出了自己独特的发现,这些发现有助于在两种流行的开源配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值