Bert模型token长度最长为512,在使用Bert模型训练过程中我们可能会遇到token长度超过512的情况并警告:Token indices sequence length is longer than the specified maximum sequence length for this model(643>512)。为此该如何解决呢?下面转载两篇文章希望对大家有所帮助。
超长文本训练 - clearwind在自然语言处理(NLP)任务中,处理超长文本(通常指长度超过模型最大支持长度的文本)是一个常见的挑战。BERT等预训练模型通常具有固定的最大序列长度限制(例如,BERT-base的最大序列长度为512个标记)。当需要处理超过这个长度的文本时,需要采取特定的策略来确保模型能够有效地处理这些数据。 Behttp://zxse.cn/archives/1735886207197除此之外,还有简单暴力的截断法,(head截断、tail截断、head+tail截断):