TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

1. 错误信息

TypeError: TextEncodeInput must be Union[TextInputSequence,Tupele[InputSequence, InputSequence]]

2. 错误分析

是由transformers版本更新导致的报错,由如果用transformers-4.x执行transformers-3.x的代码,在tokenize时可能报这个错误,原因是代码逻辑更新造成的不兼容。

3. 解决方法

3.1 降低版本

既然是由版本更新造成的错误,我们自然可以通过降低版本的方法解决。

pip install transformers==3.1.0

3.2 额外代码

假如我们的环境需要适应一套复杂系统,有其他的代码需要依赖transformers-4.x,不能随便把版本降下来,这个时候该怎么办呢?

首先我想对源码进行改造,让它可以兼容3.x的代码,但是看了一眼之后,感觉版本之间的tokenizer部分整个代码逻辑发生了较大的改变,直接改造源码的成本有点高,既然如此,不如把transformers-3.x中的tokenizer部分拿出来,额外打一个python包,不就可以了。

把所有tokenizer部分复制出来之后,期间遇到了一些小的bug,不过基本上都是引用的报错,很快都被我解决了。

下载这个wheel,然后安装它:
https://download.csdn.net/download/weixin_44826203/86509502

pip install transformers_old_tokenizer-3.1.0-py3-none-any.whl

使用的时候只需要做出以下替换:

# 原来的代码可能是这样的
from transformers import AutoTokenizer

# 替换为
from transformers_old_tokenizer.tokenization_auto import AutoTokenizer

希望此文对你有所帮助。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值