词嵌入-embedding

土豆打工仔

于 2024-03-09 14:33:02 发布

阅读量628

点赞数 13

文章标签： embedding python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51278988/article/details/136582953

版权

本文讨论了one-hot编码在表示大量词汇时的问题，强调了消除词嵌入偏见的重要性，并介绍了通过相关词向量调整和词袋模型的区别，揭示了两种方法在NLP向量化过程中的差异和适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

one-hot:假如词表有一万个词，如果用one-hot编码来表示，会使得每个词之间没有关联性，对相关词的泛化能力不强,因为两个one-hot向量内积为0.

消除偏见的方法

如果没有消除词嵌入偏见，那么我们预测的话很有可能会有一些歧视之类的。比如babysitting→mother。所以要消除这种偏见，那么要改变词嵌入相关词的距离。

1 用相关词one-hot向量相减

3 移动两个向量，使他们两个到相关词的距离一样。

词袋模型与One-hot区别

词袋模型和one-hot编码虽然在NLP中都涉及到对文本进行向量化表示的方法，但是它们并不是完全相同的概念。

一句话来说，one-hot编码是一种将离散数据映射为向量的方法，而词袋模型是一种将文本转换为向量的方法。

具体来说，one-hot编码是指对于一个离散变量的取值，用一个二进制向量来表示，其中只有一个元素为1，其余元素都为0。例如，在文本中，如果我们要用one-hot编码来表示单词，就可以定义一个词汇表，其中每个单词都有一个唯一的编号，然后对于每个单词，都可以用一个向量来表示，其中只有编号对应的元素为1，其余元素都为0。

词袋模型则是将一段文本中的所有单词都看作是一个集合，然后对每个单词进行计数，得到一个向量，其中每个元素对应一个单词，表示该单词在文本中出现的次数。这样得到的向量就可以表示整个文本。

总的来说，虽然one-hot编码和词袋模型都是将文本转换为向量的方法，但是它们的实现方式是不同的。在one-hot编码中，每个向量只有一个元素为1，其余元素都为0，而在词袋模型中，向量中的每个元素都表示对应单词在文本中出现的次数

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。