Bert工程化代码优化

最新推荐文章于 2024-06-30 02:39:03 发布

mania_yan

最新推荐文章于 2024-06-30 02:39:03 发布

阅读量687

点赞数 14

分类专栏： AI 文章标签： bert 人工智能深度学习

本文链接：https://blog.csdn.net/yyw794/article/details/135206437

版权

22 篇文章 1 订阅

订阅专栏

tokenizer优化

使用 BertTokenizerFast 取代 BertTokenizer

BertTokenizerFast是基于Rust语言开发的版本，性能提高10倍（官方宣传和实测结果一致）

from transformers import BertTokenizerFast

使用transformers的padding和truncation模式，可以大大节省我们的截断和补齐的预处理代码。

from transformers.file_utils import PaddingStrategy

如果文本长度支持弹性输入/动态长度

padding=PaddingStrategy.LONGEST

如果文本长度固定，需要补齐到模型的最大长度

padding=PaddingStrategy.MAX_LENGTH

from transformers.tokenization_utils_base import TruncationStrategy

默认使用这种即可

使用示例：

例如sbert，分类模型等

encoded_input = tokenizer(texts, padding=padding,  truncation=truncation, max_length=model_max_len)  #, return_tensors='np'

例如排序模型等

第一句统一放入texts的list中

第二句统一放入text_pair的list中

tokenizer会自动解决2句的拼接处理，这样可以极大的节省预处理代码。

encoded_input = tokenizer(text=texts, text_pair=text_pairs, padding=padding, truncation=truncation, max_length=model_max_len) #, return_tensors='np'

query = query.strip("？").strip("。").strip("、").strip("！").strip("，")

优化为

query = query.strip("？。、！，")

关注

专栏目录