李宏毅2020机器学习【学习笔记】 P23 Unsupervised Learning:Word Embedding

_bh

已于 2023-09-29 23:10:52 修改

阅读量640

点赞数 3

分类专栏：机器学习【学习笔记】文章标签：机器学习人工智能学习笔记

于 2023-09-13 16:47:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51330846/article/details/132853724

版权

机器学习【学习笔记】专栏收录该内容

14 篇文章 1 订阅

订阅专栏

目录

How to exploit context? 如何利用上下文

Count based 基于数量的

Prediction based 基于预测的

为什么可以这样做呢？

为什么要共享参数？

感谢B站up主搬运的课程：

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?share_source=copy_web&vd_source=262e561fe1b31fc2fea4d09d310b466d

Word Embedding

一开始我们用语义向量来表示单词，每一维表示一个单词，但这样无法知道各个词之间的关系，此即 1-of-N Encoding ，各个单词之间是独立的~
我们可以用 Word Class 对各个单词进行分类，但类与类之间仍有一些联系（比如动物与植物都是生物，动作不是；类一与类二都与动物有关，植物与动物没有关系）无法体现~
那么我们就应该将他们 project 映射到一个高维空间中，就如图中右上角的二维空间（横轴将行为与生物区分开；纵轴则将与动物有关与无关的词分开），此即 Word Embedding

机器学习 Word Embedding 的过程就是一个 Unsupervised Learning 的过程，因为我们手上仅有一大堆的文本作为输入，我们并没有提供真正的 Word Embedding 应该长什么样。

机器需要通过阅读大量的文本，通过 context 上下文来学出 Word Embedding ~

How to exploit context? 如何利用上下文

Count based 基于数量的

如果单词 $w_i$ 和 $w_j$ 常常一起出现，那么在多维空间中的这两个单词的向量就会靠的更近。

Prediction based 基于预测的

要做的就是预测下一个词

把单词 $w_{i-1}$ 用 1-of-n 编码表示，并作为输入放到 NN 中，让输出是下一个位置 $w_i$ 出现每一个单词的几率，把 first hidden layer 取出，我们便可将 $z_1$ 、 $z_2$ ……作为维度称为我们要的 Word Embedding~

为什么可以这样做呢？

因为在这个 prediction model 中，我们预测的是下一个单词出现的概率，那么在 hidden layer 中学出来的就是各个 word 的特征，那这样放到多维空间中准没错。

我们可以对上面这样的方法进行拓展，将前面的多个词一同作为输入，当然，连接到同一个 $z_i$ 上的参数必须是共享的

为什么要共享参数？

一个很直觉、很合理的解释：

来自2个位置前的 "apple" 和来自1个位置前的 "apple" ，如果不共享参数的话，这显然是不同的输入，会导致 train 出的神经元不同（或是权重， $1\times w = z$ ），这自然是不合理的，一个单词不应该映射出不一样的多维空间向量。

实操中做参数更新时，将两参数初始化为相同的值，在 Gradient Descent 时将所有梯度一并减去即可。

Train

左边是我们收集到的数据，就让机器去最小化预测模型的交叉熵即可。

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄4年

19
原创

36
点赞

8
收藏

11
粉丝

关注

私信

热门文章

分类专栏

机器学习【学习笔记】 14篇

最新评论

【项目部署调试】 yolov5 实操问题记录
CSDN-Ada助手: 恭喜您发布了第17篇博客！看到您对github开源项目yolov5的实操问题记录，真是受益良多。希望您能继续分享实践经验，也期待您能深入探讨一些更具挑战性的技术问题，比如如何优化模型性能或者应用场景的拓展等。谦虚地建议一下，希望您能继续保持创作热情，为大家带来更多的技术分享。期待您的下一篇作品！
【论文阅读】 Denoising Diffusion Probabilistic Models ( DDPM ）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
李宏毅2020机器学习【学习笔记】 P54 Transformer
CSDN-Ada助手: 恭喜您撰写第13篇博客！标题“李宏毅2020机器学习【学习笔记】 P54Transformer”引起了我的兴趣。您的学习笔记对于那些对机器学习感兴趣的人来说无疑是一份宝贵的资源。在这个快速发展的领域中，深入了解Transformer的原理和应用是非常有价值的。继续坚持写作，不仅是对您个人学习的巩固，也对读者来说是一次宝贵的学习机会。我期待着您下一篇博客的发布，希望您可以继续分享您的见解和学习心得。或许，您可以考虑将Transformer与其他机器学习算法进行对比，或者探索其在实际场景中的应用案例。这样的创作方式将进一步丰富您的博客内容，并为读者提供更加全面的学习体验。再次恭喜您的持续创作，期待您未来更多的精彩文章！谢谢您对机器学习领域的贡献。
李宏毅2020机器学习【学习笔记】 P57 Unsupervised Learning:Neighbor Embedding
CSDN-Ada助手: 恭喜您写下了第15篇博客！看到您的标题《李宏毅2020机器学习【学习笔记】 P55Unsupervised Learning:Neighbor Embedding》，我不禁对您的学术研究和持续创作精神感到钦佩。您对李宏毅老师的学习笔记进行了深入的研究，这是非常有价值的。在未来的创作中，我希望您能继续保持谦虚的态度，并结合自己的理解和实践经验，加入更多个人观点和见解。比如，您可以分享一些实际应用中的案例，或者对Neighbor Embedding方法的优化和改进思路。这样可以为读者提供更多的思考和启发，并进一步丰富您的博客内容。期待您的下一篇创作！
李宏毅2020机器学习【学习笔记】 P58 Unsupervised Learning:Deep Auto-Encoder
CSDN-Ada助手: 恭喜您写完了第16篇博客！您的持续创作精神令人钦佩！阅读了您的学习笔记，我对您对李宏毅2020机器学习中深度自编码器的理解印象深刻。您对无监督学习的探索给我带来了新的启发。下一步，我建议您可以继续深入研究深度自编码器的应用场景，并分享您对其优化方法的思考。期待您的下一篇博客！谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。