huggingface中的tokenizer切词offset_mapping作用

最新推荐文章于 2025-04-12 20:40:25 发布

唐僧爱吃唐僧肉

最新推荐文章于 2025-04-12 20:40:25 发布

阅读量4k

点赞数 4

分类专栏： bert源码解读文章标签： python

本文链接：https://blog.csdn.net/znevegiveup1/article/details/122737497

版权

bert源码解读专栏收录该内容

51 篇文章

订阅专栏

huggingface之中的tokenizer切词之后，得到的offset_mapping标志着每次切出来的单词对应着第几个字母，这里截取出来的结果如下：

text:          "80      %      of     Americans believe   seeking   multiple    opinions    can      help     them     make   
offset_mapping:(0,2)  (2,3)   (4,6)   (7,16)    (17,24)   (25,32)   (33,41)     (42,50)   (51,54)   (55,59)  (60,64)  (65,69)

 better   choices    ,     and     for        good    reason      .
(70,76)   (77,84) (84,85) (86,89)  (90,93)  (94,98)  (99,105)  (105,106)

可以看出来，offset_mapping为每一个单词相应的字母的长度，（这样能知道每一次切分出来的’input_ids’对应的是哪几个单词），input_ids为每一个切分出来的部分对应的id的编码。