统计语言模型中常用的词向量模型有:One-hot编码,Word2Vec和GloVe等。
One-Hot编码可用于机器学习,将类变量转换为多维向量的形式.。One-Hot采用N位状态寄存器来对N位状态进行编码,每个状态都是由独立的寄存器表示,在任意时候只有一位寄存器有效。One-Hot 采用二进制编码,寄存器的状态由0或1组成,因为只有一位寄存器有效,所以在任意时候,只有一个寄存器的编码为1, 其余寄存器的编码都为0。举例来说,如果要对[“香蕉”,“苹果”,“芒果”,‘苹果’],进行One-Hot编码,可以使用三个寄存器来保存这三个特征,每个特征只有一-位寄存器值有效,One-Hot编码可表示为[[1,0,0],[0,1,0],[0,0,1],[0,1,0]]。由这个例子可以看出,One-Hot 寄存器的个数与特征数有关,一般情况下,有多少个特征,就需要多少个寄存器。One-Hot的特点是会构成大量的稀疏矩阵,所以在特征值很多的情况下,并不适用这种编码方法,而且单纯的0和1表示状态,并不能体现不同单词之间的隐含关系,编码效果不好。
one-hot编码
最新推荐文章于 2022-07-01 16:37:39 发布