吴云理-CSDN博客

残差神经网络参考文献 Deep Residual Learning for Image Recognition对输入的向量 x, 经过线性变换后, 再非线性变换, 然后线性变换, 最后加上 x. 写成公式F(x)+x:=W2σ(W1x)+x. \text{F}(x) +x:=W_2\sigma(W_1x) +x. F(x)+x:=W2σ(W1x)+x.σ:R→R\sigma: \R \to \Rσ:R→R 是激活函数.残差主要的作用是避免梯度消失.**残差卷积神经网络与PDE **对残

2022-01-25 14:17:10 943

原创 Deep Set

一个样本一般会被看成是一个向量. 然后将样本标签丢给机器去学习模型.通常也有样本, 不是向量. 例如图, 点云(矩阵), 持续图（2维向量集合), 文本(向量序列).对这些样本一般使用向量化手法, 大家熟悉的是 word2vet, transformer. 这里我们了解一下 DeepSet.文章参考 Deep Sets有一些网文介绍也对此做了介绍.纯翻译的 https://www.cnblogs.com/wangchangshuo/p/13853491.html添加个人理解的 https:/

2022-01-21 11:40:58 1739 1

原创 Dense(units, activation=None,)初步

Dense ( units, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros', kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None )units, 代表该层的输出维度

2022-01-20 16:15:13 2235

原创什么是 Embedding()

本文只是初步解释, 或者解释Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

2022-01-20 14:07:09 2045

原创集合 Transformer(Set Transformer)

文献: Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksSet Transformer 指输入为集合, 输出为向量的的 Transformer模型, 其可以逼近任意的置换不变映射.定义.\text{定义.}定义. 一个映射 f 称作是置换 σ\sigmaσ不变的如果 f(xσ(1),⋯ ,xσ(n))=σ(f(x1,⋯ ,xn)).f(x_{\sigma(1)}, \cdots,x

2022-01-11 11:24:06 1839

原创 Persformer

参考文献 Persformer: A Transformer Architecture for Topological Machine Learning这是一篇使用拓扑方法的 Transformer. 输入是持续图, 输出是分类概率.拓扑数据分析的简单流程Z/2\Z/2Z/2-系数的单纯同调拓扑同调理论最简单的部分, 其各维同调群反应空间情况为:0-维同调群 H0\text{H}_0H0, 空间连通分支的个数, 用于聚类.1-维同调群 H1\text{H}_1H1, 空间含圆圈的数目.

2022-01-10 16:27:36 877

原创 Predictive Attention Transformer 理解

参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map PredictionPA-transformer 的想法是将 QKT/NQK^T/\sqrt{N}QKT/N 做两种处理, 一是正常的 encode 到下一个 encode 的 QKT/NQK^T/\sqrt{N}QKT/N , 另一个是使用 2D-卷积层,两种处理的信息以某种比例混合后用于取值投影. 混合后的信息也将有类似的两种处理

2022-01-05 14:52:37 688

原创自注意机制中添加局部信息

文章参考: Modeling Localness for Self-Attention Networks分散注意力机制的思路是先验的让一些特征仅仅依赖于邻近的信息. 本文的思路是考虑全局信息的同时也添加局部信息.具体地,A^eG \hat{A} e^{G} A^eGA^\hat{A}A^ 是权重矩阵, 即 softmax(QKT/d)\text{softmax}(QK^T/\sqrt{d})softmax(QKT/d). Gn×nG_{n \times n}Gn×n, n 是文字长度(含词汇的数

2022-01-05 13:46:18 2285

原创低秩自注意力

自注意力一般是低秩的, 证明参考Linformer: Self-Attention with Linear Complexity 定理 1.这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.这意味着可以使用两个矩阵逼近 WQW^QWQ 或者 WKW^KWK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 低秩矩阵可以看成是小矩阵的乘积.假定正常注意力机制权重矩阵为A:=HWQ(WK)THT,

2022-01-04 11:27:44 1523

原创线性注意力

这是关于提升transormer 效率的方法. 故而在单头自注意力机制上考虑.Q,K,VQ,K,VQ,K,V 都是 N×DN \times DN×D 矩阵, QKTQK^TQKT 的复杂度为 N2DN^2DN2D. 令 A:=softmax(QKTQK^TQKT). AVA VAV 的复杂度为 N2DN^2DN2D. 所以注意力机制的复杂度为 Q(N2)Q(N^2)Q(N2). 我们之所以关注 N 是因为这关系到输入词汇的长度.如果换一种想法 eQKT=ϕ(Q)ϕ(K)Te^{QK^T}=\phi

2021-12-31 11:28:32 2052

原创 Augmenting Self-attention with Persistent Memory

Augmenting Self-attention with Persistent MemoryarXiv:1907.01470 [cs.LG]\url{1907.01470 [cs.LG]}1907.01470 [cs.LG]给定序列 X:=(x1,⋯ ,xn)X:=(x_1,\cdots,x_n)X:=(x1,⋯,xn), 列向量 xix_ixi 的长度为 d. 自注意机制的 query， key 和 value 分别是qi:=WQxi,ki:=WKxi,vi:=WVx

2021-12-29 11:00:51 779

原创透明注意力(Transparent Attention)

Ankur Bapna, Mia Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. 2018. Training Deeper Neural Machine Translation Models with Transparent Attention. In Proceedings of EMNLP. Brussels, Belgium, 3028–3033.https://doi.org/10.18653/v1/D18-1338\url{https://doi.or

2021-12-28 10:43:06 1285

原创自注意力机制中的相对位置表示

Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. In Proceedings of HLT-NAACL. New Orleans, Louisiana, 464–468. https://doi.org/10.18653/v1/N18-2074\url{https://doi.org/10.18653/v1/N18-2074}https:

2021-12-24 11:33:53 857

wuyuanli_r的博客

原创 torch 决策回归树

原创来自 PDE 的残差神经网络

原创 Deep Set

原创 Dense(units, activation=None,)初步

原创什么是 Embedding()

原创集合 Transformer(Set Transformer)

原创 Persformer

原创 Predictive Attention Transformer 理解

原创自注意机制中添加局部信息

原创低秩自注意力

原创线性注意力

原创 Augmenting Self-attention with Persistent Memory

原创透明注意力(Transparent Attention)

原创自注意力机制中的相对位置表示

原创 Talking-Heads Attention

原创 k-means

原创两个矩阵相处的复杂度

原创 Bert 思路

原创自然网络语言模型(NNLM)

原创 tf.data.Dataset.shuffle(buffer_size)怎样工作的?

空空如也

空空如也