NLP-D6-李宏毅机器学习L3hw-L4self-attention-L5seq2seq(Transformer)

昨天的进度被一些意外的事情打乱了,而且搞得心烦意乱,但是没关系!!!留得青山在,不怕没柴烧,昨天第一次给同学讲解ML,发现了自己不牢固的知识,感觉很好!

----0553
开始预习hw3的slides&&看课。
----------0609
看了作业要求,感觉很干!!!打算边吃饭边看。

------0628吃完了,产生了问题
1、交叉验证不会使模型提前见到训练集嘛?
我自己的想法:我们本来做的就是用val调model,交叉验证只不过是另一种利用val的方法。

------0710大概看完了,然后主要讲的就是数据增强和交叉验证以及代码。突然发现kaggle是可以编辑之前的版本的,之前我都是自己复制的,太拉跨了。然后刚刚试跑了hw3的模型,现在查一下tqdm是啥,就下去收拾宿舍。
1、tqdm—显示进度条的

Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。

   总之,它是用来显示进度条的,很漂亮,使用很直观(在循环体里边加个tqdm),而且基本不影响原程序效率。名副其实的“太强太美”了!这样在写运行时间很长的程序时,是该多么舒服啊!

原文链接:https://blog.csdn.net/qq_33472765/article/details/82940843
2、第一天可视化的工具是?
tensorboard
好像没看到怎么调用,有时间研究下hw1代码
在这里插入图片描述

官网用法:https://www.tensorflow.org/tensorboard/get_started?hl=zh-cn

-------0747回来看下怎么用tensorboard
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
—0753现在来看下代码,正好ipad笔没有电了。
1、gradient_norm就是梯度截断,为了防止梯度爆炸。
代码:
在这里插入图片描述
参考资料:
https://blog.csdn.net/csnc007/article/details/97804398
2、test_pred.cpu()到底在做什么
其实,我也知道是在切换gpu、cpu,只是想查查。发现这其实是一种数据类型?
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
参考资料:
https://blog.csdn.net/moshiyaofei/article/details/90519430
在这里插入图片描述
所以源代码先转为cpu tensor再,转换为numpy()再求最大值。

4、代码看完了,但是没看到residual network呀,好像是自己写的,那就自己尝试一下!
感觉不行,还是找了官方正解,学习一下。感觉这是一个未完待续的版本,但是已经有思路了。
https://www.kaggle.com/code/a24998667/ml2022hw3-report-questions

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值