自然语言处理基础:词向量(词的表示One-hot编码、分布式语义)

一、词向量介绍

1、什么是词向量

词向量(Word Vector),也被称为词嵌入(Word Embedding),是一种将自然语言中的词语映射为低维连续实值向量的技术。它的核心目标是用数学向量的形式来表示词语,使得这些向量能够捕捉词语之间的语义和句法关系。

在传统的自然语言处理方法中,常常使用 one-hot 编码来表示词语。例如,假设词汇表中有 N 个词语,那么每个词语都可以表示为一个长度为 N 的向量,其中只有对应位置的元素为 1,其余元素都为 0。然而,这种表示方法存在很多缺点,比如向量维度高、无法表示词语之间的相似性等。

而词向量则不同,它通过训练的方式,将词语映射到一个低维的向量空间中。在这个空间中,语义相近的词语对应的向量在空间中的距离也比较近。例如,“国王” 和 “王后”、“男人” 和 “女人” 等语义相关的词语,它们的词向量在空间中的位置会比较接近。

2、为什么要使用词向量

(1) 解决 one-hot 编码的缺陷

one-hot 编码将每个词语视为独立的个体,无法体现词语之间的任何关系。而词向量能够通过向量之间的距离来表示词语的相似程度,使得模型能够更好地理解词语的语义。

(2) 捕捉语义和句法信息

词向量可以捕捉到词语之间的语义和句法关系。例如,通过词向量的运算,可以发现一些有趣的规律,如 “国王 - 男人 + 女人 = 王后”。这种语义的可计算性为自然语言处理任务提供了有力的支持

(3) 降低维度

one-hot 编码的维度等于词汇表的大小,当词汇表很大时,维度会非常高。而词向量的维度通常是几十到几百,这大大降低

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字化与智能化

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值