虾皮:LLM的词表大小也有缩放定律?

在这里插入图片描述

📖标题:Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
🌐来源:arXiv, 2407.13623

🛎️文章简介

🔸研究问题:大语言模型(LLM)中计算最优的词表大小是多少?
🔸主要贡献:论文通过研究和分析,提出了三种方法来预测LLM的最优词表大小,并验证了这些方法在不同模型规模和不同训练数据量下的有效性。

📝重点思路

🔺相关工作

🔸LLM:Transformer已被证明是一种灵活可扩展的架构,具有一致的性能增益。
🔸缩放定律:旨在开发一个预测框架,以找到计算资源的最佳分配,从而最大限度地提高模型性能,当前研究聚焦数据和参数。
🔸语言模型词表:词表对模型性能有显着影响,较大的词汇量有助于降低词表外(OOV)的可能性,并捕捉语言的真实统计分布,但较大的词表缺乏足够信息训练鲁棒表示。
🔸字节级语言模型:与令牌级模型相比,它在解码效率和噪声鲁棒性方面具有优势,但通常仅限于1B以下的参数。

🔺论文思路

🔸缩放公式:给定有限预算C,以运算量FLOP为单位进行测量,旨在计算最优的模型参数N和训练数据D。
🔸公式改造:将模型参数N拆分为词表参数和非词表参数,并将训练数据D通过字符H来测量。
🔸缩放定律:为了与性能测量相关联,定义分词器压缩比为D/H,并映射到词表大小V的二次函数,通过词汇不敏感损失来衡量语言模型的有效性。

🔺实验方案

🔸方案1:给定相同的运算量,通过不同的参数量和词表配置,拟合一个缩放定律。
🔸方案2:通过研究运算量相对于词表大小的变化,使用导数来估计词表大小。
🔸方案3:给定参数量、词表大小和训练字符数,通过一个参数化函数拟合损失公式。

🔎分析总结

🔸存在一个最优的词表大小,且词表参数比非词表参数缩放的更慢,但仍然是性能的关键因素。
🔸三种方法预测的最优词汇表大小的模型,在相同的计算预算下,性能优于使用传统词表大小的模型。
🔸当前模型的词表还是偏小,如Llama2-70B应当由216K,是词表32K的7倍,提高词表大小能显著提升性能。

💡个人观点

论文首次系统地研究了LLM中词表大小的最优分配问题,并提出了有效的预测方法。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 11
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值