![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
北山杉林
半路转码人员!本科985化工专业,读研中科院人工智能方向,很高兴能和各位大佬交流,发布的贴子如有错误,欢迎批评指正!
展开
-
因果多头自注意力(Causal-MultiHead-SelfAttention)代码
使用下三角矩阵进行mask。原创 2024-04-08 14:49:53 · 309 阅读 · 0 评论 -
weight-tying探索
在一些领域,将嵌入层和输出层的权重绑定,以达到减少参数量并使得相同token保持统一的embedding空间的作用。可以看到,在这个例子中,使用 weight-tying 后 loss 收敛更快。的权重矩阵的尺寸是10*3,即。的权重矩阵大小相等。原创 2024-04-08 13:58:57 · 222 阅读 · 0 评论 -
Transformer(李宏毅老师课)
Scheduled Sampling:在训练时不仅使用gruth训练,为了减小expourse bias需要加入一些错误信息,但这样会破坏transformer的并行性。在需要确定性回答的模型中(语音翻译等)beam search效果不错,但在翻译系统,问答系统中效果很差。在一些任务中需要直接复制某段文字,如人名地名等。原创 2023-08-27 21:12:11 · 58 阅读 · 0 评论 -
【无标题】深度学习实验常用辅助算法
深度学习实验常用辅助算法1、高斯混合模型2、卡尔曼滤波3、匈牙利算法1、高斯混合模型2、卡尔曼滤波3、匈牙利算法原创 2023-08-22 14:37:37 · 45 阅读 · 1 评论 -
Python数组原地操作,防止内存溢出
数组原地操作方法原创 2023-01-19 13:16:06 · 181 阅读 · 0 评论 -
神经网络训练过程中保存参数与加载参数
深度学习训练过程中模型参数的保存与加载原创 2022-12-03 14:49:53 · 1046 阅读 · 0 评论