使用与未使用预训练词向量的区别

预训练词向量

对于训练数据较少的情况下,使用预先训练好的词向量可以使一些目前可解释或不可解释的先验词语信息嵌入到词向量中,而这些先验知识对于下游词向量训练任务,尤其是小数据集来讲很有帮助。预训练词向量的选择主要考虑两个因素:语料和维度。

  1. 语料选择需要与训练数据的文本类型保持一致,例如英文对应英文预训练集,中文对应中文预训练集,新闻文本最好对应新闻文本的预训练集。
  2. 预训练词向量的维度要和自定义的词向量维度保持一致。

(一) 目的

通过已训练好的词与词/字与字之间的相关性特征(上下文语言结构)来适用于与之类似的上下文特征,弥补训练数据不足以学习出该语言结构的一般特点。

(二) 使用与未使用预训练词向量的区别

  • 使用预训练词向量将表征具有该预训练词与词关系的语义信息;
  • 随机生成初始化词向量不能通过特定上下文单词的出现来预测target词;
  • 也就是说,如果训练数据中出现该预训练集中存在上下文单词,就可以在之后的神经网络训练后生成一个准确的taget,不需要再反向传播更新传入的权重值,否则需要不断更新权重参数来实现梯度下降到最低点找到最优值。(实际上预训练词向量可以简化梯度下降<模型收敛>的过程,个人理解)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值