Keras库中的embedding方法随笔

Keras embedding

text mining - How does Keras ‘Embedding’ layer work? - Cross Validated (stackexchange.com)

keras.layers.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

embedding层主要作用就是将文本编码成的稀疏向量映射到稠密向量中提高效率。

必要参数:

  • input_dim: int > 0。词汇表大小,输入维度,整数表示 即,最大整数 index + 1。(1000则代表编码后的输入有999个词)

  • output_dim: int >= 0。词向量的维度

  • input_length: 输入序列的长度

在进入embeding层之前要对原始文档进行整数编码,一般使用one_hot编码或者整数编码(tokenize)

整数编码:

  1. 构建词汇表(Vocabulary):首先,需要构建一个词汇表,其中包含了数据集中所有不重复的单词或标记。

  2. 分配整数值:为词汇表中的每个单词分配一个唯一的整数值,通常从1开始分配。例如,第一个单词可以分配整数1,第二个单词分配整数2,依此类推。

  3. 编码文本数据:对于文本数据中的每个单词,使用词汇表中的整数值来表示它。将文本数据中的单词替换为它们在词汇表中的整数编码

之后对输入句子进行编码[word1,word2,wordn]——> [0,1,49999]

缺陷是单词之间无法相关联

wordidfrequence
word101234
word2112323
wordn499994324

one_hot编码:

  1. 构建词汇表(Vocabulary):与整数编码一样,首先需要构建一个词汇表。

  2. 分配唯一索引:为词汇表中的每个单词分配一个唯一的索引,通常从0开始分配。

  3. 独热编码:对于文本数据中的每个单词,使用一个长度等于词汇表大小的向量来表示它。将单词的索引位置设为1,其余位置设为0。

    机器学习:数据预处理之独热编码(One-Hot)_keras 热编码是什么意思_生活甜甜好运连连的博客-CSDN博客

e.g.

我 是 边缘计算 实验室 的 学生 ——> [ 0,1,2,3,4,5] ——>one_hot [ [ ] ,[ ] ,[ ] ] 6x8的独热编码

0 1 2 3 4 5

我 在 七号楼 边缘计算 实验室 ——> [ 0,6,7,2,3] ——>one_hot 同理

0 6 7 2 3

input_dim = 8 (8个词汇)

output_dim=2(输出的维度,输出后为二维词向量)

input_length = 6 (输入序列的大小)

在进行embedding时 :

6x8的矩阵与初始化的8x2的权重矩阵做乘法 得到6x2的输出(一个句子中每个词都是用二维向量表示)

在经过很多句子输入训练后,更新完成的8x2权重矩阵可以直接对1xn的独热编码也就是一个词 的one_hot向量进行编码。

NLP–文本向量化 — deeplearning 1.0.0 alpha documentation (deeplearning-doc.readthedocs.io)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值