1. 错误信息
TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]
2. 错误分析
是由transformers版本更新导致的报错,由如果用transformers-4.x执行transformers-3.x的代码,在tokenize时可能报这个错误,原因是代码逻辑更新造成的不兼容。
3. 解决方法
3.1 降低版本
既然是由版本更新造成的错误,我们自然可以通过降低版本的方法解决。
pip install transformers==3.1.0
3.2 额外代码
假如我们的环境需要适应一套复杂系统,有其他的代码需要依赖transformers-4.x,不能随便把版本降下来,这个时候该怎么办呢?
首先我想对源码进行改造,让它可以兼容3.x的代码,但是看了一眼之后,感觉版本之间的tokenizer部分整个代码逻辑发生了较大的改变,直接改造源码的成本有点高,既然如此,不如把transformers-3.x中的tokenizer部分拿出来,额外打一个python包,不就可以了。
把所有tokenizer部分复制出来之后,期间遇到了一些小的bug,不过基本上都是引用的报错,很快都被我解决了。
下载这个wheel,然后安装它:
https://download.csdn.net/download/weixin_44826203/86509502
pip install transformers_old_tokenizer-3.1.0-py3-none-any.whl
使用的时候只需要做出以下替换:
# 原来的代码可能是这样的
from transformers import AutoTokenizer
# 替换为
from transformers_old_tokenizer.tokenization_auto import AutoTokenizer
希望此文对你有所帮助。