用bert_keras精调中文albert模型的一些小技巧

最新推荐文章于 2024-03-08 14:21:33 发布

置顶

weixin_48384960

最新推荐文章于 2024-03-08 14:21:33 发布

阅读量436

点赞数

分类专栏： King的人工智能

本文链接：https://blog.csdn.net/weixin_48384960/article/details/109201804

版权

在使用keras_bert进行Chinese ALBERT模型微调时，遇到由于'CLS'和'SEP'标识导致的张量形状不匹配问题。解决方案包括调整Tokenizer或模型输入张量的形状。调整后，代码能顺利运行，并在中文NLP任务上表现优于非中文版BERT。

摘要由CSDN通过智能技术生成

在使用keras_bert精调中文albert模型的过程中，发现采用开源的Tokenizer代码，会出现训练过程中张量形状不匹配的问题。
进一步探索，会发现Tokenizer会默认在句子的前后加上’CLS’和’SEP’标识，导致出来的id数目会比设置的maxlen多2个（bert模型自带的机制），因此导致后续定义模型时针对输入张量定义形状时，会出现问题：

class OurTokenizer(Tokenizer):

    def _tokenize(self, text):

        R = []

        for c in text:

            if c in self._token_dict:

                R.append(c)

            elif self._is_space(c):

                R.append(