自然语言处理中token和tokenization是什么
简单来说,tokenization就是通常所说的分词,分出的每一个词语我们把它称为token。
tokenization,也叫word segmentation,分词,是一种操作,它按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。一般来说,我们要求序列的元素有一定的意义,比如“text mining is time-consuming”需要处理成"text mining/ is/ time-consuming",其中"text mining"表示"文本挖掘"。
如果把语料中所有的token做一个去重,就得到了一个词汇表,其中的每一个词语被称为type。英文信息处理中,tokenization需要把"I’m Li"这样的句子转换为"I am Li",即将一些词语、短语的写法规范化。中文由于文字本身没有形态变化、不需要太多的规范化操作,大家关注的主要的是切分操作,即分词(如,我是中国人->[‘我’, ‘是’, ‘中国人’])。