- 博客(7)
- 收藏
- 关注
原创 【Pytorch】服务器Slurm上单/多GPU模型训练及保存加载
文章目录一、多GPU模型训练1、Pytorch多GPU模型训练原理2、Pytorch实现二、多GPU模型保存和加载三、Slurm命令使用四、代码Pytorch网站一、多GPU模型训练1、Pytorch多GPU模型训练原理用简单的话描述一下,以8个GPU为例。首先将模型放到主GPU上,并该模型在其余7个GPU上都复制一份;接着一个batch_size为64的数据传进来时,数据会被分为8份(每份...
2019-11-18 17:41:32 8489
原创 【DL】关于重参数(Reparameterization)
最近在看关于生成模型的内容,在VAE中对KL Divergence的计算,以及RelGAN中的Gumbel-Softmax,都涉及到了**重参数(Reparameterization trick)**这一概念。这里有一篇写得非常好:重参数详解另外两个关于Gumbel-Softmax的链接:12...
2019-10-21 18:49:49 7859
转载 【DL】Normalization总结
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-12 23:39:34 213
原创 【Pytorch】tensorboardX链接
记录几个有用的tensorboardX链接https://github.com/lanpa/tensorboardXhttps://www.jianshu.com/p/46eb3004becahttp://blog.itpub.net/29829936/viewspace-2637425/https://zhuanlan.zhihu.com/p/37626738...
2019-10-12 11:52:43 111
原创 【NLP】谈谈Transformer
@toc[文章目录]一. 从RNN到Transformer文字数据由于天然具有序列特性,与图像数据是不同的,因此最初的特征提取器(类似于图像中的CNN)采用了RNN结构:对RNN有一定了解的话,就会知道RNN的两个明显问题:效率问题:需要逐个词进行处理,后一个词要等到前一个词的隐状态输出以后才能开始处理,因此无法并行处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了解决第...
2019-10-04 17:59:01 536
转载 -【转载】如何转载CSDN博客
在参考“如何快速转载CSDN中的博客”后,由于自己不懂html以及markdown相关知识,所以花了一些时间来弄明白怎么转载博客,以下为转载CSDN博客步骤和一些知识小笔记。 参考博客原址:http://blog.csdn.net/bolu1234/article/details/5186...
2019-10-03 15:52:15 87
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人