NLP-D6-李宏毅机器学习L3hw-L4self-attention-L5seq2seq(Transformer)

最新推荐文章于 2024-02-29 23:40:07 发布

甄小胖

最新推荐文章于 2024-02-29 23:40:07 发布

阅读量1.7k

点赞数

分类专栏： python 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45252975/article/details/124487409

版权

这篇博客记录了作者学习李宏毅机器学习课程中关于深度学习的部分，特别是Transformer模型的理解。作者探讨了交叉验证、数据增强、梯度截断等概念，以及Tensorboard的使用。在理解Transformer时，作者强调了其在seq2seq任务中的应用，解释了Encoder-Decoder结构，以及自我注意力和残差网络的重要性。

摘要由CSDN通过智能技术生成

昨天的进度被一些意外的事情打乱了，而且搞得心烦意乱，但是没关系！！！留得青山在，不怕没柴烧，昨天第一次给同学讲解ML，发现了自己不牢固的知识，感觉很好！

----0553
开始预习hw3的slides&&看课。
----------0609
看了作业要求，感觉很干！！！打算边吃饭边看。

------0628吃完了，产生了问题
1、交叉验证不会使模型提前见到训练集嘛？
我自己的想法：我们本来做的就是用val调model，交叉验证只不过是另一种利用val的方法。

------0710大概看完了，然后主要讲的就是数据增强和交叉验证以及代码。突然发现kaggle是可以编辑之前的版本的，之前我都是自己复制的，太拉跨了。然后刚刚试跑了hw3的模型，现在查一下tqdm是啥，就下去收拾宿舍。
1、tqdm—显示进度条的

Tqdm 是一个快速，可扩展的Python进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装任意的迭代器 tqdm(iterator)。

   总之，它是用来显示进度条的，很漂亮，使用很直观（在循环体里边加个tqdm），而且基本不影响原程序效率。名副其实的“太强太美”了！这样在写运行时间很长的程序时，是该多么舒服啊！

原文链接：https://blog.csdn.net/qq_33472765/article/details/82940843
2、第一天可视化的工具是？
tensorboard
好像没看到怎么调用，有时间研究下hw1代码
在这里插入图片描述

官网用法：https://www.tensorflow.org/tensorboard/get_started?hl=zh-cn

-------0747回来看下怎么用tensorboard
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
—0753现在来看下代码，正好ipad笔没有电了。
1、gradient_norm就是梯度截断，为了防止梯度爆炸。
代码：

参考资料：
https://blog.csdn.net/csnc007/article/details/97804398
2、test_pred.cpu()到底在做什么
其实，我也知道是在切换gpu、cpu，只是想查查。发现这其实是一种数据类型？
在这里插入图片描述