读论文
文章平均质量分 92
读论文
YMK_0
这个作者很懒,什么都没留下…
展开
-
【论文阅读笔记】《Attention is All You Need》——Attention机制和Transformer
Self-Attention原理计算两个向量之间的相关性α输入的向量分别乘矩阵Wq和Wk得到q(query)和k(key)输入的向量分别乘矩阵W^q和W^k得到q(query)和k(key)输入的向量分别乘矩阵Wq和Wk得到q(query)和k(key)相似度α=q⋅k相似度\alpha =q\cdot k相似度α=q⋅kSelf-attention得到相似度α,也就是权重,和每个向量的value相乘再求和得到b1得到相似度\alpha,也就是权重,和每个向量的valu原创 2022-03-18 00:34:01 · 1187 阅读 · 0 评论 -
【论文阅读笔记】GNN入门(A Gentle Introduction to Graph Neural Networks)
A Gentle Introduction to Graph Neural Networks什么是图实体之间的关系V:顶点E:边U:全局信息表示成向量数据如何表示成图?1.图片(244 * 244 * 3)之前我们都是把图片表示成三个维度的tensor,现在我们可以把每个像素当作节点,相邻的节点用边连接(感觉这样GNN数据比CNN数据包含的信息多好多)中间的是邻接矩阵,蓝色的点表示一条边(那么对于图片来说所有的邻接矩阵都长得一样呀)2.文本词表示成节点,上一个词和下一个词之原创 2022-05-10 21:48:15 · 602 阅读 · 0 评论 -
【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面。BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding深的双向Transformer摘要(Abstract):与别的文章的区别是什么?效果有多好?与ELMo的区别:ELMo基于RNN,双向,在运用到下游的任务时需要做出一些调整。BERT基于Transformer,只需要改最上层。与GPT的原创 2022-03-18 13:45:07 · 864 阅读 · 0 评论 -
【论文阅读笔记】GPT三部曲
GPT三部曲(GPT、GTP2、GPT3)引言这是某次武汉大学三行情书的第一名的英文版(机翻凑合看)The crab is peeling my shell, the notebook is writing me.The sky is full of me falling on the snowflakes on the maple leaves.And you are missing me.原文螃蟹在剥我的壳,笔记本在写我。漫天的我落在枫叶上雪花上。而你在想我。这是一个基于GP原创 2022-03-18 14:19:25 · 3278 阅读 · 0 评论