免费链接: Blogger(需翻Q)
概念理解
- Word:一个单词,例如
hello
- Character:一个字母,例如
a
- Subword:①若使用单词进行编码,由于单词多且杂,容易导致OOV问题,而且不太好编码 ②若使用字母进行编码,又太少,容易丢失语义;所以人们发明了subword,将一个word分成多个subword,同时兼顾了①②两个问题。
- OOV:Out of Vocabulary,意思是有些单词在词典中查询不到,例如一些根据词根现造的词,或者拼写错误的词等。
- Tokenization:将一段文本分成若干个元素,一个元素称为一个Token,而 token 是之后要被编码成向