自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 torch 决策回归树

回归树思路

2022-07-29 17:46:09 573 1

原创 来自 PDE 的残差神经网络

残差神经网络参考文献 Deep Residual Learning for Image Recognition对输入的向量 x, 经过 线性变换后, 再非线性变换, 然后线性变换, 最后加上 x. 写成公式F(x)+x:=W2σ(W1x)+x. \text{F}(x) +x:=W_2\sigma(W_1x) +x. F(x)+x:=W2​σ(W1​x)+x.σ:R→R\sigma: \R \to \Rσ:R→R 是激活函数.残差主要的作用是避免梯度消失.**残差卷积神经网络与PDE **对残

2022-01-25 14:17:10 943

原创 Deep Set

一个样本一般会被看成是一个向量. 然后将样本标签丢给 机器去学习模型.通常也有样本, 不是向量. 例如 图, 点云(矩阵), 持续图(2维向量集合), 文本(向量序列).对这些样本一般使用向量化手法, 大家熟悉的是 word2vet, transformer. 这里我们了解一下 DeepSet.文章参考 Deep Sets有一些网文介绍也对此做了介绍.纯翻译的 https://www.cnblogs.com/wangchangshuo/p/13853491.html添加个人理解的 https:/

2022-01-21 11:40:58 1739 1

原创 Dense(units, activation=None,)初步

Dense ( units, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros', kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None )units, 代表该层的输出维度

2022-01-20 16:15:13 2235

原创 什么是 Embedding()

本文只是初步解释, 或者解释Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

2022-01-20 14:07:09 2045

原创 集合 Transformer(Set Transformer)

文献: Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksSet Transformer 指输入为集合, 输出为向量的的 Transformer模型, 其可以逼近任意的置换不变映射.定义.\text{定义.}定义. 一个映射 f 称作是置换 σ\sigmaσ不变的如果 f(xσ(1),⋯ ,xσ(n))=σ(f(x1,⋯ ,xn)).f(x_{\sigma(1)}, \cdots,x

2022-01-11 11:24:06 1839

原创 Persformer

参考文献 Persformer: A Transformer Architecture for Topological Machine Learning这是一篇使用拓扑方法的 Transformer. 输入是 持续图, 输出是分类概率.拓扑数据分析的简单流程Z/2\Z/2Z/2-系数的 单纯同调拓扑同调理论最简单的部分, 其各维同调群反应空间情况为:0-维同调群 H0\text{H}_0H0​, 空间连通分支的个数, 用于聚类.1-维同调群 H1\text{H}_1H1​, 空间含圆圈的数目.

2022-01-10 16:27:36 877

原创 Predictive Attention Transformer 理解

参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map PredictionPA-transformer 的想法是将 QKT/NQK^T/\sqrt{N}QKT/N​ 做两种处理, 一是正常的 encode 到 下一个 encode 的 QKT/NQK^T/\sqrt{N}QKT/N​ , 另一个是使用 2D-卷积层,两种处理的信息 以某种比例混合后用于 取值投影. 混合后的信息 也将有类似的两种处理

2022-01-05 14:52:37 688

原创 自注意机制中添加局部信息

文章参考: Modeling Localness for Self-Attention Networks分散注意力机制的思路是先验的让一些特征仅仅依赖于邻近的信息. 本文的思路是考虑全局信息的同时也添加局部信息.具体地,A^eG \hat{A} e^{G} A^eGA^\hat{A}A^ 是权重矩阵, 即 softmax(QKT/d)\text{softmax}(QK^T/\sqrt{d})softmax(QKT/d​). Gn×nG_{n \times n}Gn×n​, n 是文字长度(含词汇的数

2022-01-05 13:46:18 2285

原创 低秩自注意力

自注意力一般是低秩的, 证明参考Linformer: Self-Attention with Linear Complexity 定理 1.这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.这意味着可以使用 两个矩阵逼近 WQW^QWQ 或者 WKW^KWK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 低秩矩阵可以看成是小矩阵的乘积.假定正常 注意力机制 权重矩阵为A:=HWQ(WK)THT,

2022-01-04 11:27:44 1523

原创 线性注意力

这是关于提升transormer 效率的方法. 故而在单头自注意力机制上考虑.Q,K,VQ,K,VQ,K,V 都是 N×DN \times DN×D 矩阵, QKTQK^TQKT 的复杂度为 N2DN^2DN2D. 令 A:=softmax(QKTQK^TQKT). AVA VAV 的复杂度为 N2DN^2DN2D. 所以 注意力机制的复杂度为 Q(N2)Q(N^2)Q(N2). 我们之所以关注 N 是因为这关系到输入词汇的长度.如果换一种想法 eQKT=ϕ(Q)ϕ(K)Te^{QK^T}=\phi

2021-12-31 11:28:32 2052

原创 Augmenting Self-attention with Persistent Memory

Augmenting Self-attention with Persistent MemoryarXiv:1907.01470 [cs.LG]\url{1907.01470 [cs.LG]}1907.01470 [cs.LG]给定序列 X:=(x1,⋯ ,xn)X:=(x_1,\cdots,x_n)X:=(x1​,⋯,xn​), 列向量 xix_ixi​ 的长度为 d. 自注意机制的 query, key 和 value 分别是qi:=WQxi,ki:=WKxi,vi:=WVx

2021-12-29 11:00:51 779

原创 透明注意力(Transparent Attention)

Ankur Bapna, Mia Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. 2018. Training Deeper Neural Machine Translation Models with Transparent Attention. In Proceedings of EMNLP. Brussels, Belgium, 3028–3033.https://doi.org/10.18653/v1/D18-1338\url{https://doi.or

2021-12-28 10:43:06 1285

原创 自注意力机制中的相对位置表示

Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. In Proceedings of HLT-NAACL. New Orleans, Louisiana, 464–468. https://doi.org/10.18653/v1/N18-2074\url{https://doi.org/10.18653/v1/N18-2074}https:

2021-12-24 11:33:53 857

原创 Talking-Heads Attention

多头注意力机制各头独立进行, Talking-Heads 即交头接耳.注意力机制已知矩阵 Qn1×dkQ_{n_1 \times d_k}Qn1​×dk​​, Kn2×dkK_{n_2 \times d_k}Kn2​×dk​​, Vn2×dvV_{n_2\times d_v}Vn2​×dv​​, 注意力Attention⁡(Q,K,V):=A^V:=Softmax⁡(QKTdk)V.\operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{

2021-12-23 16:45:56 2776

原创 k-means

k-means 聚类聚类是指按某种特征将数据分为若干类. 由于选取的特征不同, 聚类会有差别.k-means 聚类是按 中心点距离分类的. 不恰当地类比为井田, 一井: 九块地,中间是国家的, 另外 8块地是农民的. 一井就是类.k-means 聚类是 事先规定了 分为 k-类.从数据 {d1,⋯dn}\{d_1,\cdots d_n \}{d1​,⋯dn​} 中任意挑选 k 个元素作为中心 a1,⋯aka_1,\cdots a_ka1​,⋯ak​.l=argi min{∣dj−ai∣}l=

2021-12-22 11:45:58 176

原创 两个矩阵相处的复杂度

复杂度即从无到有地写代码行数.矩阵 An×mA_{n \times m}An×m​、 Bm×lB_{m \times l}Bm×l​, Cn×l:=A⋅BC_{n \times l}:= A \cdot BCn×l​:=A⋅B. 具体地, Ci,j:=∑k=1mAi,k⋅Bk,jC_{i,j}:=\sum_{k=1}^m A_{i,k} \cdot B_{k,j}Ci,j​:=k=1∑m​Ai,k​⋅Bk,j​具体写代码时通常将之写作 Ci,j+=Ai,k⋅Bk,jC_{i,j} + = A_{i,k

2021-12-21 14:14:16 134

原创 Bert 思路

Bert从语料库中选两段语句, 两个句子有50% 的可能是一段语料中前后句子关系. 对句子做标记 ‘’ 放在开头, ‘ ’ 放在两个句子中间, 标记后句子长度(含词汇个数)为 n. 两段语句中 15% 的 词 m, 有80%的可能被 字符 ‘ ’掩盖, 10%的可能被用其他词取代, 有10%的可能保持不变. 将每个词的位置向量 + 所在句子(0或1) + 每个词的 1-hot 编码, 如图将上面的加和向量输入到 transformer 的 encode ×\times× 12 中, 输出维度是 n.

2021-12-20 15:04:05 79

原创 自然网络语言模型(NNLM)

在一语料库中, 假设有长度为 T 的文本序列 S:=w1,w2,⋯ ,wTS:=w_{1},w_{2}, \cdots, w_{T}S:=w1​,w2​,⋯,wT​. 如果选子序列 S:=wt−1,wt−2,⋯ ,wt−n+1S:=w_{t-1},w_{t-2}, \cdots, w_{t-n+1}S:=wt−1​,wt−2​,⋯,wt−n+1​, 想预估 词汇 wtw_twt​ 出现的概率, 即计算条件概率P(wt∣wt−1,wt−2,⋯ ,wt−n+1).P(w_t| w_{t-1},w_{t-2}

2021-12-16 14:15:05 1558

原创 tf.data.Dataset.shuffle(buffer_size)怎样工作的?

假定输入的数据为 A:=[0,1,2,3,4,5,6,7,8], buffer_sizer:=2.A.shuffle(2)的工作思路:1.取A的 前两个元素 {0,1} 从中随机选出 1个元素, 例如 1. 原先的数据变为 A=[0,2,3,4,5,6,7,8]2. 重复1 至不能再重复3. 将选出的元素按顺序写下.上面的思路可以推论出 A 中第 i 个元素在 shuffle 后 只能出现在 第 i-1 个位置或更靠后.dataset = tf.data.Da...

2021-12-10 15:06:04 1267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除