pytorch
文章平均质量分 66
keep-hungry
这个作者很懒,什么都没留下…
展开
-
CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle) pytorch 错误总结
在训练的时候报错,我个人遇到的是两个原因1.标签数和最后一层网络的输出数量不一致2.标签数没有转化成从0开始的n个数字(n对应类别)比如预测5类,标签是0,1,2,3,4,注意,是从0开始原创 2021-10-11 15:31:20 · 1958 阅读 · 0 评论 -
pytorch Dimension out of range (expected to be in range of [-2, 1], but got 2)问题记录
模型正常进行训练,训练好后想使用一个文本进行一下测试,发现居然在forward函数报错。开始百思不得其解,训练都是正常的,按evaluate函数的逻辑写了测试样例,怎么会报错呢。报错如下图:最后经过仔细的检查,发现是forward()函数里squeeze()函数的问题,这个函数将某些满足只有一个元素的维度删除没了。因此解决办法是使用两个测试样本封装入一个batch中,问题解决了。还是要更细心...原创 2021-10-10 22:31:23 · 1465 阅读 · 0 评论 -
如何从大型模型(BART)fine tune一个小模型及代码实现
本文目的是从上游大型模型进行知识蒸馏以应用于下游自动摘要任务,主要总结了自动摘要目前面临的难题,BART模型的原理,与fine tune 模型的原理。对模型fine tune部分进行了代码复现,通过fine tune使得student模型能够在一块8G显存的GPU上进行训练。原创 2021-05-19 01:41:33 · 5671 阅读 · 6 评论 -
pytorch 使用BART模型进行中文自动摘要
fine-tune BART模型实现中文自动摘要如何fine-tune BART模型参见系列文章1博文提供了数据集和训练好的模型,自动摘要能够摘要出部分关键信息,但什么时候终止学习的比较差。原创 2021-08-16 21:11:26 · 14603 阅读 · 20 评论 -
pytorch 手写数字识别 新网络设计和学习率探索
首先复现了经典的LeNe-5网络,在此基础上探究了学习率和动量两个超参对模型训练的影响。提出了从两个维度进行信息学习,最后拼接在一起的卷积神经网络,准确率为:0.9875。原创 2021-07-13 21:21:08 · 706 阅读 · 1 评论 -
pytorch MNIST数据集无法正常加载的解决办法( HTTP Error 503: Service Unavailable)
pytorch MNIST数据集无法正常加载的解决办法( HTTP Error 503: Service Unavailable)。MNIST是手写数字识别的数据集,非常适合神经网络入门(CNN网络)。服务器挂了,当使用下面代码时无法加载MNIST数据集,报错503。给出一种替代性加载数据集的方法,而避免下载数据集到本地原创 2021-03-26 14:42:46 · 5180 阅读 · 6 评论 -
Python 手写数字识别的实现(pytorch框架) 超详细版本-jupyter notebook
本文详细介绍了如何构建LeNet-5神经网络用于手写数字识别。文中大量的代码解释包含在代码行后的注释中,请注意查看。下面的代码在谷歌云盘的colab上运行,也可以在jupyter notebook上运行原创 2021-03-28 21:28:49 · 15593 阅读 · 12 评论