wjn922-CSDN博客

原创【Pytorch】服务器Slurm上单/多GPU模型训练及保存加载

文章目录一、多GPU模型训练1、Pytorch多GPU模型训练原理2、Pytorch实现二、多GPU模型保存和加载三、Slurm命令使用四、代码Pytorch网站一、多GPU模型训练1、Pytorch多GPU模型训练原理用简单的话描述一下，以8个GPU为例。首先将模型放到主GPU上，并该模型在其余7个GPU上都复制一份；接着一个batch_size为64的数据传进来时，数据会被分为8份（每份...

2019-11-18 17:41:32 9173

原创【DL】关于重参数(Reparameterization)

最近在看关于生成模型的内容，在VAE中对KL Divergence的计算，以及RelGAN中的Gumbel-Softmax，都涉及到了**重参数(Reparameterization trick)**这一概念。这里有一篇写得非常好：重参数详解另外两个关于Gumbel-Softmax的链接：12...

2019-10-21 18:49:49 8289

转载【DL】Normalization总结

2019-10-12 23:39:34 219

原创【Pytorch】tensorboardX链接

记录几个有用的tensorboardX链接https://github.com/lanpa/tensorboardXhttps://www.jianshu.com/p/46eb3004becahttp://blog.itpub.net/29829936/viewspace-2637425/https://zhuanlan.zhihu.com/p/37626738...

2019-10-12 11:52:43 119

转载【转载】向量求导

2019-10-10 10:18:14 233

原创【NLP】谈谈Transformer

@toc[文章目录]一. 从RNN到Transformer文字数据由于天然具有序列特性，与图像数据是不同的，因此最初的特征提取器（类似于图像中的CNN）采用了RNN结构：对RNN有一定了解的话，就会知道RNN的两个明显问题：效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理，因此无法并行处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了解决第...

2019-10-04 17:59:01 596

转载 -【转载】如何转载CSDN博客

在参考“如何快速转载CSDN中的博客”后，由于自己不懂html以及markdown相关知识，所以花了一些时间来弄明白怎么转载博客，以下为转载CSDN博客步骤和一些知识小笔记。参考博客原址：http://blog.csdn.net/bolu1234/article/details/5186...

2019-10-03 15:52:15 92

wjn922的博客