📖标题:Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
🌐来源:arXiv, 2407.13623
🛎️文章简介
🔸研究问题:大语言模型(LLM)中计算最优的词表大小是多少?
🔸主要贡献:论文通过研究和分析,提出了三种方法来预测LLM的最优词表大小,并验证了这些方法在不同模型规模和不同训练数据量下的有效性。
📝重点思路
🔺相关工作
🔸LLM:Transformer已被证明是一种灵活可扩展的架构,具有一致的性能增益。
🔸缩放定律:旨在开发一个预测框架,以找到计算资源的最佳分配,从而最大限度地提高模型性能,当前研究聚焦数据和参数。
🔸语言模型词表:词表对模型性能有显着影响,较大的词汇量有助于降低词表外(OOV)的可能性,并捕捉语言的真实统计分布,但较大的词表缺乏足够信息训练鲁棒表示。
🔸字节级语言模型:与令牌级模型相比,它在解码效率和噪声鲁棒性方面具有优势,但通常仅限于1B以下的参数。
🔺论文思路
🔸缩放公式:给定有限预算C,以运算量FLOP为单位进行测量,旨在计算最优的模型参数N和训练数据D。
🔸公式改造:将模型参数N拆分为词表参数和非词表参数,并将训练数据D通过字符H来测量。
🔸缩放定律:为了与性能测量相关联,定义分词器压缩比为D/H,并映射到词表大小V的二次函数,通过词汇不敏感损失来衡量语言模型的有效性。
🔺实验方案
🔸方案1:给定相同的运算量,通过不同的参数量和词表配置,拟合一个缩放定律。
🔸方案2:通过研究运算量相对于词表大小的变化,使用导数来估计词表大小。
🔸方案3:给定参数量、词表大小和训练字符数,通过一个参数化函数拟合损失公式。
🔎分析总结
🔸存在一个最优的词表大小,且词表参数比非词表参数缩放的更慢,但仍然是性能的关键因素。
🔸三种方法预测的最优词汇表大小的模型,在相同的计算预算下,性能优于使用传统词表大小的模型。
🔸当前模型的词表还是偏小,如Llama2-70B应当由216K,是词表32K的7倍,提高词表大小能显著提升性能。
💡个人观点
论文首次系统地研究了LLM中词表大小的最优分配问题,并提出了有效的预测方法。
附录