深度学习
文章平均质量分 93
糖葫芦君
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
普通卷积 VS 深度卷积
跨通道关联 = 不同特征维度的 “相互影响”—— 全连接层是 “无差别全影响”,普通卷积是 “局部全影响”,深度卷积是 “无影响”。在 FFN 优化中,我们用深度卷积切断跨通道关联,本质是砍掉 “无意义的特征维度融合”,保留 “有价值的局部位置交互”,从而在不损失性能的前提下降低计算冗余。原创 2025-11-30 10:27:41 · 744 阅读 · 0 评论 -
DataLoader多进程数据加载
None:yield dataprint(f"跳过无法解析的 JSON 行: {line}")raise RuntimeError(f"文件 {self.file_dir} 未找到!")raise RuntimeError(f"读取文件时发生错误: {e}")你的代码对worker_id多进程场景(存在):直接取(DataLoader 分配的子进程编号)。单进程场景(为None):强制设。原创 2025-11-19 16:07:22 · 442 阅读 · 0 评论 -
激活函数relu为什么有效?
这是ReLU最核心的优势。:在ReLU之前,常用的激活函数是Sigmoid和Tanh。它们的梯度在输入值很大或很小时会趋近于0(饱和区)。:在训练深度神经网络时,我们通过反向传播算法来更新权重,这个更新量依赖于从输出层反向传播回来的梯度。当梯度经过多个使用Sigmoid/Tanh的层时,多个小于1的小梯度连续相乘,会导致传到前面层的梯度变得极小甚至消失。这意味着前面层的权重几乎得不到更新,网络无法有效学习。:ReLU的导数非常简单:当输入 > 0 时,导数为1;当输入 <= 0 时,导数为0。原创 2025-09-06 15:18:32 · 941 阅读 · 0 评论 -
美团-位置消偏-Deep Position-wise Interaction Network for CTR Prediction
本文argue之前的位置消偏方法没有考虑上下文信息与位置之间的交互信息,本文利用用户历史序列信息来建模每个位置k的上下文感知注意力分数b_k;再基于上下文context,b_k来建模不同位置之间的交互,得到每个位置k的带有request信息的表征,与item的表征拼接,得到每个item在每个位置的ctr得分。原创 2025-08-20 11:02:41 · 716 阅读 · 0 评论 -
Yotube消除位置偏差:Recommending What Video to Watch Next: A Multi-task Ranking System
然而,隐式反馈存在偏差,因为它是由现有排序系统生成的。具体来说,我们训练一个浅层塔网络(shallow tower),该网络使用那些会导致选择偏差的特征作为输入(例如,用于建模位置偏差的位置特征(position feature))。做法:增加shallow tower:浅塔接收与选择偏差相关的输入,例如当前系统决定的排名顺序,并输出一个标量作为偏差项,用于主模型的最终预测。因此,为了消除位置偏差,我们可以训练一个使用位置作为输入特征的模型,并在服务时将位置特征固定设置为 1(或其他固定值,如缺失值)。原创 2025-08-19 21:20:05 · 842 阅读 · 0 评论 -
torch.nn.Conv1d详解
classstride=1padding=0dilation=1groups=1bias=Truedtype=None在最简单的情况下,输入大小为、输出大小为的该层的输出值可以精确描述为:⋆是有效互相关运算符。N是批量大小。C表示通道数。L是信号序列的长度。原创 2025-08-18 18:07:35 · 1014 阅读 · 0 评论 -
Joint Optimization of Ranking and Calibration with Contextualized Hybrid Model
改文章将预测值logit拆分为两个部分:为正样本的概率和负样本的概率。并推导证明这种方式能够同时提升校准能力和排序能力: pointwise loss能够带有排序能力。listwise能够带有排序能力。并且更好的利用non-click data。并且证明了在rank loss 和 bce loss组合的情况下,logit能够代表明确的ctr打分,两个logit相减就是代表真实含义的ctr预估值。原创 2025-01-13 10:50:16 · 1006 阅读 · 0 评论 -
Loss Margin的原理与推导
接下来同样通过smooth技巧,将损失函数转化为:其中m越大,就会强行要求目标样本与非目标样本分数拉开更大的差距。原创 2025-06-10 16:58:06 · 976 阅读 · 0 评论 -
MTP(Multi-Token-Predict)公式解析以及代码实现
i代表token(h的下标 i 始终为1,2,3,4,不随着Module改变),k代表MTP Module(从k=0开始,k=0代表Main Model);比如说在i=1,k=1时:MTP Module1中 t2与拼接得到:比如说在i=1,k=2时:公式2将拼接后的向量送入TRM:eg:. (如图 T=6,k=2)公式3eg:输入到Module1中得到,对应是预测t3的打分;输入到Module2中得到,对应是预测t5的打分;原创 2025-05-22 13:25:35 · 1122 阅读 · 0 评论 -
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)
文章目录优化方法概述整体框架SGDMomentum理解指数加权平均偏差修正AdaGradAdaDelta/RMSPropAdam(Adaptive Moment Estimation)Adam+L2 regularizationL2 regularization与Weight decay学习率衰减局部最优优化方法概述模型优化方法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或...原创 2019-05-29 01:07:50 · 38861 阅读 · 14 评论 -
cross entropy 与 square error(square error在神经网络中的梯度消失问题)
在训练神经网时,应该使用哪一个呢?如果是回归问题,用均方误差(MSE).如果是分类问题,一般用交叉熵损失(CE).因为MSE容易发生梯度消失问题,而CE则不会.以分类问题为例,假设我们的类别数量为T,最后一层使用softmax.对一条样本(x,c)而言,其label为c.在神经网络softmax之前的那一层,共有T个神经元:不管是用MSE还是CE,我们都是希望ycy_cyc越大越好,其...原创 2018-12-15 17:01:50 · 2293 阅读 · 0 评论
分享