十五、语言模型

上一章:十四、嵌入(Embeddings)

下一章:十六、循环神经网络(Recurrent Neural Networks)

更多章节:人工智能入门课程


目录

课前练习

训练Embeddings

✍️ 示例代码笔记: 训练词袋(CBoW )语言模型

总结

课后练习

复习与自学

作业: 训练Skip-Gram 模型


语义embeddings, 比如说Word2VecGloVe, 实际上是迈向语言模型的第一步-创建某种方式理解表示自然语言的模型

课前练习

语言模型背后的主要思想是以无监督方式在未标记的数据集上进行训练这很重要因为我们拥有大量的未标记文本而已标记的文本始终受限于我们可以用于标记的精力大多数情况下我们能够构建可以预测文本中缺失单词的语言模型因为在文本中屏蔽随机单词并把它用作训练样本很容易

训练Embeddings

在我们前面的例子中我们使用预训练语义embeddings但是观察如何训练embeddings很有趣我们可以使用的几种方法包括

  • N元语法N-Gram )语言模型,当我们通过查看前N个词块(token)来预测一个词块(token)时。
  • 连续词袋模型Continuous Bag-of-Words (CBoW)), 当我们在词块token序列$W_{-N}$, ..., $W_N$.中预测中间词块token$W_0$
  • Skip-gram, 当我们通过中间词块token$W_0$来预测相邻的一组token集合{$W_{-N},\dots, W_{-1}, W_1,\dots, W_N$}

图像出自这篇论文

✍️ 示例代码笔记: 训练词袋(CBoW )语言模型

在如下代码笔记中继续您的学习

总结

在上一节课中我们看到了单词embeddings的神奇之处现在我们知道了训练单词embeddings并不是很复杂的任务同时我们应该要能够在必要时训练我们自己的特定领域的文本的单词embeddings

课后练习

复习与自学

作业: 训练Skip-Gram 模型

在这个实验中我们挑战您修改本课中的代码来训练Skip-Gram模型而不是CBoW模型查看详情


 上一章:十四、嵌入(Embeddings)

下一章:十六、循环神经网络(Recurrent Neural Networks)

更多章节:人工智能入门课程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值