![](https://img-blog.csdnimg.cn/direct/29074428960d4cfc94733bf9c2fb0b80.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
文章平均质量分 75
一些关于深度学习的知识总结
鱼儿也有烦恼
本博客主要记录个人学习过程中的笔记,旨在分享学习旅程的精华与见解。
若有所助,幸甚;若有谬误,敬请斧正。
展开
-
深度学习归一化与正则化
归一化(Normalization) 定义:归一化是指通过某种算法将输入数据或神经网络层的激活值处理后限制在我们需要的特定范围内。它的目的是为了方便后续的数据处理,并加快程序的收敛速度。归一化的主要作用是统一样本的统计分布。在0到1之间的归一化代表的是概率分布,而在其他区间内的归一化则表示的是坐标分布。正则化(Regularization)定义:正则化是指为解决适定性问题或过拟合而加入额外信息的过程。在机器学习和逆问题的优化过程中,正则项往往被加在目标函数当中。原创 2024-06-20 17:43:24 · 538 阅读 · 0 评论 -
根据模型log文件画loss曲线
思想:使用Python的matplotlib库来绘制loss曲线。首先需要解析log文件,提取出每个epoch对应的loss值,然后再进行绘制。1.初始化两个空列表epochs和losses,用于存储epoch和loss值。2.打开并读取log文件,每次读取一行。3.使用正则表达式查找并提取每行中的epoch和loss值,并分别添加到epochs和losses列表中。4.使用matplotlib绘制loss曲线,其中epochs作为x轴,losses作为y轴,并设置合适的标签和标题。原创 2024-06-20 12:29:11 · 195 阅读 · 0 评论 -
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Infini-Transformer model 是一个强大而通用的Transformer模型,设计用于广泛的自然语言处理任务。它利用最先进的技术和架构来实现卓越的性能和无限上下文长度的可伸缩性。 Infini-attention 将压缩内存融入到普通的注意力机制中,使得 LLMs 能够以有界的内存和计算资源处理无限长的上下文。原创 2024-04-26 16:03:23 · 1083 阅读 · 0 评论 -
一文看懂softmax loss
本文针对softmax函数、交叉熵损失函数、softmax loss损失函数(重点)、带有temperature参数的softmax loss进行了详细的讲解,目的是更好的理解softmax loss。原创 2024-03-18 16:08:35 · 1419 阅读 · 0 评论 -
深度学习中的温度参数(Temperature Parameter)是什么?
通常,我们可以从较大的温度值开始,然后在训练过程中逐渐降低温度值,这个过程称为退火。由于一开始的温度 T 很高,概率分布中没有值接近于零,因此梯度更容易传播。可以把 temperature 想象为学习率,设置正确的 temperature 并适当衰减有助于训练,完全不正确的学习率会抑制训练。temperature 是一个超参数。当增大T的值时,分布变得更加的平坦(较大的值变得更小,较小的值变得更大);当减小T的值使,分布变得更加尖峰(较大的值变得更大,较小的值变得更小)。原创 2024-03-17 16:43:25 · 1835 阅读 · 0 评论 -
Multimodal Transformer for Unaligned Multimodal Language Sequences
MulT:未对齐多模态语言序列的多模态变换器;题目:Multimodal Transformer for Unaligned Multimodal Language Sequences年份:2019研究目的探索多模态数据集中跨模态元素之间的长范围依赖关系(本质:实现在未对齐的多模态数据集上进行多模态融合)研究内容提出了一个框架MulT进行多模态信息的融合,该框架引入了Cross-modal Attention机制。融合过程:首先利用 Conv1D 获取不同**模态特征**[^1]的局部信息,并将不同模态的特原创 2024-01-11 09:57:29 · 894 阅读 · 0 评论 -
BERT的学习
self-supervised learning是一种无监督学习的特殊形式,算法从数据本身生成标签或者目标,然后利用这些生成的目标来进行学习。(也就是说数据集的标签是模型自动生成的,不是由人为提供的。)例如,可以通过在图像中遮挡一部分内容来创建自监督任务,让模型预测被遮挡的内容。self-supervised learning 应用十分广泛,不仅用于文字方面,还可以用于语音和图像上。原创 2023-12-25 16:32:37 · 1412 阅读 · 0 评论 -
Transformer的学习
Transformer1.了解Seq2Seq任务2.Transformer 整体架构3.Encoder的运作方式4.Decoder的运作方式5.AT 与 NAT6.Encoder 和 Decoder 之间的互动7.Training。NLP 的问题,都可以看做是 QA(Question Answering)的问题,QA 的问题可以看做是 Sequence to Sequence 的问题。Sequence to Sequence 是一个常见的任务类型,例如:语音识别、语音翻译(语音辨识)、机器翻译原创 2023-12-15 19:09:01 · 1021 阅读 · 0 评论 -
Self-Attention的学习
在考虑上下文时,尽管全连接层能够考虑周边的一些信息,但是如果序列足够长的话,全连接的窗口不可能覆盖整个序列,因此需要自注意力机制。只要数据可以表示为一个向量集,那么就可以使用self-attention,Self-attention可以用于语音处理,也可以用于图像。self-attention不是仅关注了当前的输入,而是关注了整体的输入。通过计算当前输入与其他输入的相关性,来共同决定当前的输出。计算$b^1$的过程:1. 首先对于$a^1$,将$a^1$与$W^q$进行乘积,得到$q^1$,然后剩余的输原创 2023-12-14 17:09:50 · 124 阅读 · 0 评论 -
Tensorflow1.0版本环境导入
我已经创建好tensorflow1.14.0的环境了,分享给大家供大家使用。大家只需要下载我上面的MX.yml或者TS.yml(二者选其一),两个版本都可以用的,就是scipy的版本不同,可以下载上导入进去看自己的代码哪个适用。MX.yml没有GPU加速,TS.yml有GPU加速,根据自己情况下载即可。我已经创建好tensorflow1.14.0的环境了,分享给大家供大家使用。下载好以后运行下面的命令导入环境:(在base环境下操作)原创 2023-09-26 17:39:31 · 367 阅读 · 3 评论 -
Tensorflow1.0环境搭建(2023最新)
TensorFlow1.0环境搭建2023。最近在学吴恩达的深度学习,在看他的代码,前面还好改为2.0就行,改的不算多,看到卷积这一块的时候嗖嗖报错,于是我就想搭建一个TensorFlow1.0的版本去跑这老旧的代码。但是在搭建1.0版本的环境,踩了诸多的坑,所以写了这样的教程,以及我提供了1.0的环境,帮助和我一样需要用tensorflow1.0版本的同胞。如果你是刚开始学习深度学习,那么我建议去看这个课程,很新,也很详细,《动手学深度学习》,但是要是和我一样指定了让学习吴恩达的,那么就看我下面的内容吧。原创 2023-09-26 16:37:38 · 857 阅读 · 1 评论 -
自动将代码升级到TensorFlow2
自动将代码升级到TensorFlow2,为了让用户无缝过渡到 TF 2.0,TensorFlow 团队创建了`tf_upgrade_v2` 实用工具,可以帮助我们自动将1.0代码升级为2.0的代码。tf_upgrade_v2 --infile C:/1.py --outfile C:/2.py原创 2023-09-22 11:43:15 · 445 阅读 · 0 评论 -
在TensorFlow2.0中使用TensorFlow1.0的代码
使用`import tensorflow.compat.v1 as tf`来导入TensorFlow 1.x的兼容性模块,并通过`tf.disable_v2_behavior()`来禁用TensorFlow 2.0的行为。原创 2023-09-08 11:03:31 · 629 阅读 · 1 评论