VAE,EMA完结

AE直接训练然后取出decoder生成图像效果不好

改进版VAE就比较好:拿出decoder, 然后随机输入

VAE就是稳定版鲁棒版的AE,让中间地带的图像符合我们的想象(叠加)

m向量和σ向量就是再通过两个MLP层得到一下

VAE计算重构图像误差使用的是MSE

EMA就是个影子模型(直接看是线性叠加,按照事件展开就是exponential的了),跟着模型梯度更新的权重一起变,防止模型参数受到噪声影响太大,但是不参与模型训练梯度下降过程

summary:

VAE model是一种固定的架构,和CNN一样简单

EMA是一种通用技术,可以用于一切模型,简称“影子模型”

-----------

RNN的信息融合就是最后一个word,上文融合

---------------

激活值正则化是可行的,直接加在loss上即可

def forward(self, x):

self.a1 = torch.relu(self.fc1(x))

self.a2 = torch.relu(self.fc2(self.a1))

self.a3 = self.fc3(self.a2)

return self.a3

需要在model中记住那一层的激活值,所以添加到self.a1/a2/a3中(一般正常情况下一直是x=blabla(x))

l2_loss = l2_lambda * (model.a1.pow(2).sum() + model.a2.pow(2).sum() + model.a3.pow(2).sum())

loss = base_loss + l2_loss

---------------------------------------

lora和fine-tune都是大模型迁移学习下游任务调参的

--------------------------------------

VAE是高斯混合模型的distributed representation版本(distributed representation:不硬分类,只软分类,给出一个vector,每个dimension表示属于那一类的多少)

VAE默认是从多个高斯混合分布中sample出来?原理是多个正态分布可以叠加成为任一分布

要取一个x,就可以先变成取一个z,再在z对应的那个高斯分布中取一个x(其实就是连续类别的高斯混合模型了)

就是对着这个式子玩的,让里面的两个P都是gaussian的(取得一个x的概率=∑取得一个x且取得z类中的x)

-------------------------------------------------------

all:

想要找出宝可梦P(x)的分布,假设类先验概率P(z)为已知的N(0,I) ,利用一切概率分布都可以由高斯分布叠加生成定理,可设P(x|z)满足高斯分布,但是不知道均值和方差,因此通过decoder学习(z到P(x|z)的均值和方差).P(x)不定就是因为μ(z),σ(z)不定,要是这俩一定下来,P(x)也就定下来了。

变分变得就是μ和σ,即:默认model就是高斯分布的叠加,然后找到高斯分布的叠加让它的P(x)去拟合数据,泛函就是∑log(P(X=x))(极大似然)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值