one-hot:假如词表有一万个词,如果用one-hot编码来表示,会使得每个词之间没有关联性,对相关词的泛化能力不强,因为两个one-hot向量内积为0.
消除偏见的方法
如果没有消除词嵌入偏见,那么我们预测的话很有可能会有一些歧视之类的。比如babysitting→mother。所以要消除这种偏见,那么要改变词嵌入相关词的距离。
1 用相关词one-hot向量相减
3 移动两个向量,使他们两个到相关词的距离一样。
词袋模型与One-hot区别
词袋模型和one-hot编码虽然在NLP中都涉及到对文本进行向量化表示的方法,但是它们并不是完全相同的概念。
一句话来说,one-hot编码是一种将离散数据映射为向量的方法,而词袋模型是一种将文本转换为向量的方法。
具体来说,one-hot编码是指对于一个离散变量的取值,用一个二进制向量来表示,其中只有一个元素为1,其余元素都为0。例如,在文本中,如果我们要用one-hot编码来表示单词,就可以定义一个词汇表,其中每个单词都有一个唯一的编号,然后对于每个单词,都可以用一个向量来表示,其中只有编号对应的元素为1,其余元素都为0。
词袋模型则是将一段文本中的所有单词都看作是一个集合,然后对每个单词进行计数,得到一个向量,其中每个元素对应一个单词,表示该单词在文本中出现的次数。这样得到的向量就可以表示整个文本。
总的来说,虽然one-hot编码和词袋模型都是将文本转换为向量的方法,但是它们的实现方式是不同的。在one-hot编码中,每个向量只有一个元素为1,其余元素都为0,而在词袋模型中,向量中的每个元素都表示对应单词在文本中出现的次数