TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

最新推荐文章于 2024-05-01 13:33:50 发布

常鸿宇

最新推荐文章于 2024-05-01 13:33:50 发布

阅读量4.5k

点赞数 2

分类专栏：笔记文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_44826203/article/details/126701202

版权

4 篇文章 0 订阅

订阅专栏

1. 错误信息

TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

是由transformers版本更新导致的报错，由如果用transformers-4.x执行transformers-3.x的代码，在tokenize时可能报这个错误，原因是代码逻辑更新造成的不兼容。

既然是由版本更新造成的错误，我们自然可以通过降低版本的方法解决。

pip install transformers==3.1.0

假如我们的环境需要适应一套复杂系统，有其他的代码需要依赖transformers-4.x，不能随便把版本降下来，这个时候该怎么办呢？

首先我想对源码进行改造，让它可以兼容3.x的代码，但是看了一眼之后，感觉版本之间的tokenizer部分整个代码逻辑发生了较大的改变，直接改造源码的成本有点高，既然如此，不如把transformers-3.x中的tokenizer部分拿出来，额外打一个python包，不就可以了。

把所有tokenizer部分复制出来之后，期间遇到了一些小的bug，不过基本上都是引用的报错，很快都被我解决了。

pip install transformers_old_tokenizer-3.1.0-py3-none-any.whl

使用的时候只需要做出以下替换：

# 原来的代码可能是这样的
from transformers import AutoTokenizer

# 替换为
from transformers_old_tokenizer.tokenization_auto import AutoTokenizer

希望此文对你有所帮助。

关注