huggingface之中的tokenizer切词之后,得到的offset_mapping标志着每次切出来的单词对应着第几个字母,这里截取出来的结果如下:
text: "80 % of Americans believe seeking multiple opinions can help them make
offset_mapping:(0,2) (2,3) (4,6) (7,16) (17,24) (25,32) (33,41) (42,50) (51,54) (55,59) (60,64) (65,69)
better choices , and for good reason .
(70,76) (77,84) (84,85) (86,89) (90,93) (94,98) (99,105) (105,106)
可以看出来,offset_mapping为每一个单词相应的字母的长度,(这样能知道每一次切分出来的’input_ids’对应的是哪几个单词),input_ids为每一个切分出来的部分对应的id的编码。