文本转Tensor
个人学习笔记
#导入包
from bert import tokenization
tokenizer = tokenization.FullTokenizer(
vocab_file = 'chinese_L-12_H-768_A-12/vocab.txt',
do_lower_case = True)
命名一个字符串
str = '海 口 市 试 验 基 地'
转为Unicode
text = tokenization.convert_to_unicode(str)
#文字转unicode
将输入转成 unicode 字符串
text_list = text.split('')
#变为list['海','口','市','试','验','基','地']
用bert代码中的词典
text_id = tokenizer.convert_tokens_to_ids(text_list)
## [3862, 1366, 2356, 6407, 7741, 1825, 1765] xx为词汇表字编码
初次笔记 2023/4/18 11:31