深度学习
文章平均质量分 71
keep-hungry
这个作者很懒,什么都没留下…
展开
-
如何计算self-attention中的贡献度 a
对于注意力机制有很多博客都讲过了,也很好理解。但因为要写代码,具体如何计算self-attention 里贡献度比例 a 困扰了我几天。终于明白了,所以写个博客记录一下。参考了https://lonepatient.top/2019/01/09/BERT-self-Attention.html,如果你觉得我写的太简略看不懂,参考这位的博客,他的博客比我写的详尽。下面按计算流程进行梳理:学习WqW^qWq WkW^kWk WvW^vWv三个矩阵||||为什么要学习这三个矩阵呢||\/每原创 2021-09-23 16:59:45 · 213 阅读 · 0 评论 -
pytorch 使用BART模型进行中文自动摘要
fine-tune BART模型实现中文自动摘要如何fine-tune BART模型参见系列文章1博文提供了数据集和训练好的模型,自动摘要能够摘要出部分关键信息,但什么时候终止学习的比较差。原创 2021-08-16 21:11:26 · 14604 阅读 · 20 评论 -
CNN(卷积神经网络)的深度
CNN中深度可能有几种情况,这儿总结一下。深度:指的是网络的层数,有时也称为网络的深度卷积层的深度:卷积核个数。需要和通道数做区别,通道数指的是层数,一个卷积核的通道数与它进行卷积的输入必须是相同。...原创 2021-07-17 16:39:31 · 3249 阅读 · 2 评论 -
pytorch 手写数字识别 新网络设计和学习率探索
首先复现了经典的LeNe-5网络,在此基础上探究了学习率和动量两个超参对模型训练的影响。提出了从两个维度进行信息学习,最后拼接在一起的卷积神经网络,准确率为:0.9875。原创 2021-07-13 21:21:08 · 706 阅读 · 1 评论 -
如何从大型模型(BART)fine tune一个小模型及代码实现
本文目的是从上游大型模型进行知识蒸馏以应用于下游自动摘要任务,主要总结了自动摘要目前面临的难题,BART模型的原理,与fine tune 模型的原理。对模型fine tune部分进行了代码复现,通过fine tune使得student模型能够在一块8G显存的GPU上进行训练。原创 2021-05-19 01:41:33 · 5672 阅读 · 6 评论 -
基于word2vec和CNN的中文微博情感分类(论文阅读)
分享一篇论文阅读:Deep learning based emotion analysis of microblog texts。该文研究中文微博文本的情感分类问题。其研究目的是:1. 通过组合多种方法,验证CNN+Word2vec比传统方法效率高。2. 证明针对中文社交短文本,做词向量模型的预训练任务时,字符词向量比词语词向量更好。原创 2021-01-30 00:15:54 · 1508 阅读 · 3 评论 -
Attention中存在的问题-错位对齐
本文是在学习RNN中Attention机制运用,所产生的一个问题,欢迎在评论区讨论。在RNN网络中可以引入注意力机制来克服长距离依赖关系造成的困难原创 2021-04-21 10:35:25 · 598 阅读 · 0 评论 -
pytorch MNIST数据集无法正常加载的解决办法( HTTP Error 503: Service Unavailable)
pytorch MNIST数据集无法正常加载的解决办法( HTTP Error 503: Service Unavailable)。MNIST是手写数字识别的数据集,非常适合神经网络入门(CNN网络)。服务器挂了,当使用下面代码时无法加载MNIST数据集,报错503。给出一种替代性加载数据集的方法,而避免下载数据集到本地原创 2021-03-26 14:42:46 · 5186 阅读 · 6 评论 -
Python 手写数字识别的实现(pytorch框架) 超详细版本-jupyter notebook
本文详细介绍了如何构建LeNet-5神经网络用于手写数字识别。文中大量的代码解释包含在代码行后的注释中,请注意查看。下面的代码在谷歌云盘的colab上运行,也可以在jupyter notebook上运行原创 2021-03-28 21:28:49 · 15608 阅读 · 12 评论