词嵌入-embedding

本文讨论了one-hot编码在表示大量词汇时的问题,强调了消除词嵌入偏见的重要性,并介绍了通过相关词向量调整和词袋模型的区别,揭示了两种方法在NLP向量化过程中的差异和适用场景。
摘要由CSDN通过智能技术生成

one-hot:假如词表有一万个词,如果用one-hot编码来表示,会使得每个词之间没有关联性,对相关词的泛化能力不强,因为两个one-hot向量内积为0.

消除偏见的方法

如果没有消除词嵌入偏见,那么我们预测的话很有可能会有一些歧视之类的。比如babysitting→mother。所以要消除这种偏见,那么要改变词嵌入相关词的距离。

1 用相关词one-hot向量相减

3 移动两个向量,使他们两个到相关词的距离一样。

词袋模型与One-hot区别

词袋模型和one-hot编码虽然在NLP中都涉及到对文本进行向量化表示的方法,但是它们并不是完全相同的概念。

一句话来说,one-hot编码是一种将离散数据映射为向量的方法,而词袋模型是一种将文本转换为向量的方法。

具体来说,one-hot编码是指对于一个离散变量的取值,用一个二进制向量来表示,其中只有一个元素为1,其余元素都为0。例如,在文本中,如果我们要用one-hot编码来表示单词,就可以定义一个词汇表,其中每个单词都有一个唯一的编号,然后对于每个单词,都可以用一个向量来表示,其中只有编号对应的元素为1,其余元素都为0。

词袋模型则是将一段文本中的所有单词都看作是一个集合,然后对每个单词进行计数,得到一个向量,其中每个元素对应一个单词,表示该单词在文本中出现的次数。这样得到的向量就可以表示整个文本。

总的来说,虽然one-hot编码和词袋模型都是将文本转换为向量的方法,但是它们的实现方式是不同的。在one-hot编码中,每个向量只有一个元素为1,其余元素都为0,而在词袋模型中,向量中的每个元素都表示对应单词在文本中出现的次数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值