深度学习:补充内容:自然语言处理(Tokenizer和pad_sequences)

在上篇文章中我们写到了用Tokenizer和pad_sequences)这两个模块对文本类型的数据进行处理后再进行Embedding层的输入,

除了可以自己训练Embedding层外,还可以导入外部训练好的词向量,进行一个查找就行了,

emdding = np.zeros((len(tk.word_index) +1, 100)) # 0+所有词的id
for k,v in tk.index_word.items(): # 根据token分词器的结果,把词-id隐射为对应词向量
    if v in word_dict.keys(): # 判断词是否在w2v词典中
        emdding[k] = word_dict[v] # 获取某个词在w2v中的词向量
    else:
        emdding[k] = np.zeros(100) # 词不在2v词向量中,给全0的向量
input = tf.keras.Input(shape = (500,))
a1 = tf.keras.layers.Embedding(input_dim = len(tk.index_word) + 1, 
                          output_dim = 100,   # 每个词向量的长度(输出的每个词的长度)
                          input_length = (500),
                          trainable=False, # 是否训练词向量
                          weights=[emdding], # 预训练的词向量
                          )(input)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值