- onehot:又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数.
例如:
["我", "喜欢", "你"]
编码为:
[[1, 0, 0, 0],
[0, 1, 0, 0],
[0, 0, 1, 0],]
one-hot编码的优劣势:
优势:操作简单,容易理解.
劣势:完全割裂了词与词之间的联系,而且在大语料集下,每个向量的长度过大,占据大量内存.
- word2vec:是一