一文看懂词嵌入word embedding(2种算法+其他文本表示比较)

本文介绍了文本表示的重要性,包括独热编码、整数编码和词嵌入(word embedding)的优缺点。重点讲解了两种主流的词嵌入算法Word2vec和GloVe,强调了它们在表达词语关系和低维向量空间的优势,并提供了相关深入学习资源。
摘要由CSDN通过智能技术生成

一文看懂 word embedding

文本表示(Representation)

文本是一种非结构化的数据信息,是不可以直接被计算的。

文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。

文本表示将非结构化数据转化为结构化数据

文本表示的方法有很多种,下面只介绍 3 类方式:

  1. 独热编码 | one-hot representation
  2. 整数编码
  3. 词嵌入 | word embedding

word embedding的关系

独热编码 | one-hot representation

假如我们要计算的文本中一共出现了4个词:猫、狗、牛、羊。向量里每一个位置都代表一个词。所以用 one-hot 来表示就是:

猫:[1,0,0,0]

狗ÿ

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值