![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 54
eryihahaha
这个作者很懒,什么都没留下…
展开
-
扩散模型学习--基于苏神博客
拆分,添加了随机噪声,对下一时刻的x与噪声增加了系数,这样可以保证每一步都对。接下来我们对损失函数进行一下简化,减少采样的变量,增加训练稳定性。这样损失函数就建立完毕了,我们只需要输入如下特征就可以进行训练。训练好模型后通过迭代就可以从随机噪声生成对应的模型了。跟t时刻的残差并不是独立的,我们往回退一步。DDPM首先将一个原始的图像。就又噪声主导了,ok拆楼完成。, 这里采用了预测残差的方式。可以表示为如下形式,由于。...原创 2022-08-29 11:50:33 · 704 阅读 · 0 评论 -
Mixup Cutup 与mutilabel muticlass
文章目录前言一、Mixup Cutup二、Loss function选择前言今天看paper Resnet的最新训练结果,发现了Mixup Cutup,其中使用了BCE 作为损失函数/font>一、Mixup CutupCV里数据增加的一种方案,可以让一个数据拥有多个标签,妥妥的mutilabel problem参考:如下博客Multiclass classification 就是多分类问题,比如年龄预测中把人分为小孩,年轻人,青年人和老年人这四个类别。Multiclass class.原创 2021-10-05 17:30:09 · 245 阅读 · 0 评论 -
CrossEntropyLoss改进
文章目录前言一、CrossEntropyLoss二、SmoothCrossEntropy三、Sparse Softmax前言CrossEntropyLoss 是分类任务中经常使用的损失函数,但是在某些情况下,其优化效果并不是很好,本文介绍了最近出现的对CrossEntropyLoss进行改进的新损失函数一、CrossEntropyLoss公式:上图是pytorch版实现的CrossEntropyLoss,可以看出其主要作用是优化了正例对应的logits(logits介绍见上一篇博文)并使其无.原创 2021-10-03 14:23:19 · 3145 阅读 · 1 评论 -
深度学习中的logits是什么含义?
logits在深度学习中表示模型最后一层的数据,也就是raw data,之后可以接softmax或者sigmod进行缩放logits的范围为 [−∞- \infty−∞,+∞+ \infty+∞]原创 2021-10-03 13:48:34 · 2376 阅读 · 0 评论 -
华为推荐系统赛道三
样本分布不均衡focal loss:loss采样上:sampler模型上:ESMMDeepCTR原创 2021-08-19 17:10:37 · 116 阅读 · 0 评论 -
总结深度学习coding
1. torch.masked_select>>> x = torch.randn(3, 4)>>> xtensor([[ 0.3552, -2.3825, -0.8297, 0.3477], [-1.2035, 1.2252, 0.5002, 0.6248], [ 0.1307, -2.0608, 0.1244, 2.0139]])>>> mask = x.ge(0.5)>>> m原创 2021-08-18 13:49:40 · 379 阅读 · 0 评论 -
NLP 学习记录
系列文章目录文章目录系列文章目录前言weight_decaywarm up前言最近在做一些NLP可解释性的研究,也算是正经的NLP入门项目了,有很多新的知识点在本文中记录一下。weight_decay损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大对于bias或者LayerNorm.原创 2021-08-03 12:21:07 · 552 阅读 · 0 评论 -
优质 Idea 分享
1. Chinese bert融合字形与拼音信息的中文预训练模型2. autoformer对时间序列的升级改造原创 2021-07-10 20:40:53 · 106 阅读 · 1 评论 -
Bert中文vocab ##的作用
This is the character used to denote WordPieces, it’s just an artifact of the WordPiece vocabulary generator that we use, but most of those words were never actually used during training (for Chinese). So you can just ignore those tokens. Note that for the原创 2021-04-28 15:45:45 · 3882 阅读 · 0 评论 -
数学知识
熵定义:性质: 定义了混乱程度,如果全部集中在一个事件上那么为0,在各个事件概率均匀的情况下最大。相对熵(KL散度) 衡量两个分布的差距交叉熵交叉熵定义为 D(Plabel∣Pmodel) D(P_{label}|P_{model})D(Plabel∣Pmodel) 消去前方的label固定值,可得:对数 数据取对数的意义平时在一些数据处理中,经常会把原始数据取对数后进一步处理。 &n原创 2021-04-25 20:57:33 · 82 阅读 · 0 评论 -
对核函数的一点理解
背景: 可以证明只要数据的分布在维度有限的空间上,我们总是(发)能够找到一个更高维度的空间,使得它的分布是线性的。核函数 我们定义了一个函数为两个相同维度的向量经过高维映射之后的乘积,这个函数就是核函数。由于核函数是我们自己选的,因而可能映射的数据并不能完全拟合原来的分布,并且新数据也不一定完全符合原来的训练数据的分布,因而必定会有误差。详见: 核函数核方法推导...原创 2021-04-17 15:29:58 · 118 阅读 · 0 评论 -
一文详解Transformer!!!
解决的问题RNN 无法并行化,可以考虑使用CNN,但是CNN比较难考虑比较多的信息这样的话self-attention 应运而生,self-attention可以看到双向的信息,并且b1–b4可以并行被训练出了。模型原理首选求出q,k,vb1得出:只要控制αi,j是0或值那么就可以控制是否只看到local的值了向量化muti-head不同的head可以看到不同的信息 local/farPos-Encoding在transformer中e_{i} 是直接加上的,W^{p}原创 2021-03-13 18:51:12 · 1054 阅读 · 0 评论