虾皮：LLM的词表大小也有缩放定律？

最新推荐文章于 2024-08-25 09:30:17 发布

大模型任我行

最新推荐文章于 2024-08-25 09:30:17 发布

阅读量526

点赞数 11

分类专栏：大模型-结构原理文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141498462

版权

大模型-结构原理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
🌐来源：arXiv, 2407.13623

🛎️文章简介

🔸研究问题：大语言模型（LLM）中计算最优的词表大小是多少？
🔸主要贡献：论文通过研究和分析，提出了三种方法来预测LLM的最优词表大小，并验证了这些方法在不同模型规模和不同训练数据量下的有效性。

📝重点思路

🔺相关工作

🔸LLM：Transformer已被证明是一种灵活可扩展的架构，具有一致的性能增益。
🔸缩放定律：旨在开发一个预测框架，以找到计算资源的最佳分配，从而最大限度地提高模型性能，当前研究聚焦数据和参数。
🔸语言模型词表：词表对模型性能有显着影响，较大的词汇量有助于降低词表外（OOV）的可能性，并捕捉语言的真实统计分布，但较大的词表缺乏足够信息训练鲁棒表示。
🔸字节级语言模型：与令牌级模型相比，它在解码效率和噪声鲁棒性方面具有优势，但通常仅限于1B以下的参数。

🔺论文思路

🔸缩放公式：给定有限预算C，以运算量FLOP为单位进行测量，旨在计算最优的模型参数N和训练数据D。
🔸公式改造：将模型参数N拆分为词表参数和非词表参数，并将训练数据D通过字符H来测量。
🔸缩放定律：为了与性能测量相关联，定义分词器压缩比为D/H，并映射到词表大小V的二次函数，通过词汇不敏感损失来衡量语言模型的有效性。