NLP-D6-李宏毅机器学习L3hw-L4self-attention-L5seq2seq(Transformer)

这篇博客记录了作者学习李宏毅机器学习课程中关于深度学习的部分,特别是Transformer模型的理解。作者探讨了交叉验证、数据增强、梯度截断等概念,以及Tensorboard的使用。在理解Transformer时,作者强调了其在seq2seq任务中的应用,解释了Encoder-Decoder结构,以及自我注意力和残差网络的重要性。
摘要由CSDN通过智能技术生成

昨天的进度被一些意外的事情打乱了,而且搞得心烦意乱,但是没关系!!!留得青山在,不怕没柴烧,昨天第一次给同学讲解ML,发现了自己不牢固的知识,感觉很好!

----0553
开始预习hw3的slides&&看课。
----------0609
看了作业要求,感觉很干!!!打算边吃饭边看。

------0628吃完了,产生了问题
1、交叉验证不会使模型提前见到训练集嘛?
我自己的想法:我们本来做的就是用val调model,交叉验证只不过是另一种利用val的方法。

------0710大概看完了,然后主要讲的就是数据增强和交叉验证以及代码。突然发现kaggle是可以编辑之前的版本的,之前我都是自己复制的,太拉跨了。然后刚刚试跑了hw3的模型,现在查一下tqdm是啥,就下去收拾宿舍。
1、tqdm—显示进度条的

Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。

   总之,它是用来显示进度条的,很漂亮,使用很直观(在循环体里边加个tqdm),而且基本不影响原程序效率。名副其实的“太强太美”了!这样在写运行时间很长的程序时,是该多么舒服啊!

原文链接:https://blog.csdn.net/qq_33472765/article/details/82940843
2、第一天可视化的工具是?
tensorboard
好像没看到怎么调用,有时间研究下hw1代码
在这里插入图片描述

官网用法:https://www.tensorflow.org/tensorboard/get_started?hl=zh-cn

-------0747回来看下怎么用tensorboard
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
—0753现在来看下代码,正好ipad笔没有电了。
1、gradient_norm就是梯度截断,为了防止梯度爆炸。
代码:
在这里插入图片描述
参考资料:
https://blog.csdn.net/csnc007/article/details/97804398
2、test_pred.cpu()到底在做什么
其实,我也知道是在切换gpu、cpu,只是想查查。发现这其实是一种数据类型?
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
参考资料:
https://blog.csdn.net/moshiyaofei/article/details/90519430
在这里插入图片描述
所以源代码先转为cpu tensor再,转换为numpy()再求最大值。

4、代码看完了,但是没看到residual network呀,好像是自己写的,那就自己尝试一下!
感觉不行,还是找了官方正解,学习一下。感觉这是一个未完待续的版本&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值