解决bert的wordpiece对英文ner任务的影响
应用背景
最近在做搜索的相关业务,需要对query的属性进行提取业务时,针对英文的短语使用bert的tokenizer进行编码时,产生wordpiece的问题进行了处理
问题演示:
from transformers import BertTokenizer
tokenizer = BertTokenizer(vocab_file='./vocab.txt')
sentence = 'it is a red t-shirt'
encode_label = tokenizer.encode(line_1, return_tensors='pt'<