自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 slowfast network

在SlowFast网络中,慢速路径主要负责捕捉视频中的静态信息和全局动态信息,而快速路径则主要负责捕捉视频中的局部动态信息。而在SlowFast网络中,慢速路径和快速路径提取的特征会经过特定的融合策略进行融合,以产生最终的视频表示。总的来说,SlowFast网络相对于传统的双流网络具有更复杂的架构和更高的效率,在处理视频数据时能够更好地捕捉到静态和动态信息,从而取得更好的性能。SlowFast网络可以有效地处理视频中的时间信息,通过对时间维度的特殊处理,使得网络能够对视频序列中的动态信息进行建模。

2024-03-14 19:48:47 824

原创 Expected tensor for argument #1 ‘input’ to have the same device as tensor for argument #2 ‘weight’;

RuntimeError Expected tensor for argument #1 'input' to have the same device as tensor for argument_runtimeerror: expected tensor for argument #1 'inp-CSDN博客。定义调用b模块的函数,并在a模块里启动该函数。造成gpu设备的连接混乱。定义调用b模块的函数,并在a模块里启动该函数。是由于模型中的涉及到gpu等设备的函数调用问题。

2024-02-27 14:47:33 940

原创 时间注意力——给时间步赋予权重(有的时间不重要,权重很低,有的时间步重要,权重很高)

时间注意力机制是深度学习中用于的一种技术。它允许模型在处理序列数据时,对不同时间步的信息或关注度。这个机制使得模型能够更有效地不同部分的,并根据需要调整其关注的焦点。描述时间注意力机制的一种常见方法是使用基于注意力机制的循环神经网络(RNN)或者变种(比如长短期记忆网络 LSTM、门控循环单元 GRU 等)。在这些模型中,时间注意力机制通过学习权重来确定每个时间步上的输入的重要性,从而产生对应时间步的加权表示。

2023-12-30 15:31:06 3331 1

原创 video数据的维度及维度变形

B*C*D*H*W的值并不是指输入模型的样本的总大小,它。

2023-12-29 23:30:23 903

原创 ViT中的上采样和下采样——patch merge

在视觉Transformer(Vision Transformer,ViT)中,上采样和下采样通常指的是在不同层之间调整特征图的空间分辨率,以便在不同层次上捕获图像的不同尺度的信息。与传统的卷积神经网络(CNN)不同,ViT使用自注意力机制而不是卷积操作来处理输入图像,因此上采样和下采样的方式也有所不同。总体而言,ViT中的上采样和下采样主要是通过池化和插值等操作来实现的,以在不同层次上处理输入图像的尺度信息。原本的特征图的大小(h,w,c),变成了(h/2, w/2, 2c)。在ViT中,通常使用。

2023-12-25 16:12:28 2319

原创 对GPU进行压力测试

GPU压力测试工具安装指导(RHEL8.2) - 知乎 (zhihu.com)

2023-12-20 14:12:20 1558

原创 linux系统实时查看cpu和显卡温度的代码,并且实时保存

请注意,如果你的系统上没有NVIDIA显卡,或者没有安装NVIDIA驱动,GPU温度的获取可能会失败。它使用sensors命令获取CPU温度,然后使用nvidia-smi获取NVIDIA显卡的温度。获取到的温度信息会追加到一个文本文件中。下面是一个简单的脚本,使用watch命令来实时监视CPU和显卡温度,并将监测到的数据保存到一个文本文件中。请注意,为了运行这个脚本,你的系统需要安装sensors和nvidia-smi。通常,你可以通过安装lm-sensors和nvidia-smi包来获取这些工具。

2023-12-19 21:04:29 1209

原创 大模型讲座

解决1:对loss和梯度等多维状态实时监测。对数据、学习率、参数精度、模型梯度进行针对性调整和断点恢复。调整学习率的代码如下。调整参数、梯度类似。断点恢复。

2023-12-19 17:29:41 367

原创 Linux 实时观察GPU动态

Linux 实时观察GPU动态。

2023-11-26 16:49:33 47

原创 在第一个 epoch 的训练中 loss 正常,但是在之后的 epoch 中 loss 变为 NaN

在深度神经网络训练中,如果在第一个 epoch 的训练中 loss 正常,但是在之后的 epoch 中 loss 变为 NaN,通常说明模型在训练过程中发生了某种问题。在诊断问题时,逐步排除可能的原因,同时监控训练过程中的中间状态,例如梯度大小、权重分布等,可以帮助更准确地定位问题。2.如果学习率过大,权重更新可能会导致参数值爆炸,使 loss 变为 NaN。11.网络结构可能存在问题,如层之间的连接错误或某些层参数的异常初始化。14.在计算中使用了不稳定的数值计算方法,可能导致数值溢出或下溢。

2023-11-26 16:48:53 1258

原创 高斯分布。

(5 封私信 / 80 条消息) 正态分布 - 搜索结果 - 知乎 (zhihu.com)σ决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此又称之为。(Normal Distribution),也称常态分布,又名。(Gaussian Distribution),是一个常见的。(类似于寺庙里的大钟)。当μ=0,标准差σ=1时的正态分布是。为σ2^{2}的正态分布,则记为X∼N(μ,σ2)X。为正态分布,期望值μ决定了其位置,其。若随机变量X服从一个数学期望为μ、

2023-11-21 09:56:14 61

原创 模型的一些名词

这个主干网络大多时候指的是提取特征的网络,其作用就是提取图片中的信息,共后面的网络使用。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。的意思,既然说是主干网络,就代表其是网络的一部分,那么是哪部分呢?翻译的很好,主干部分,哈哈哈哈,已经具有提取特征的能力了,在我们的训练过程中,会对他进行微调,使得其更适合于我们自己的任务。4.bottleneck:瓶颈的意思,通常指的是网网络输入的数据维度和输出的维度不同,输出的。

2023-11-13 09:56:29 53

原创 thresholding(阈值化)

这一过程的目的是为了简化模型的复杂性,特别是在将一个大型模型的知识迁移到一个小型模型时。阈值化的过程涉及到将教师模型输出的概率分布转化为硬性的决策,即将概率值大于某个设定的阈值的类别作为最终的输出。这样的阈值化过程有助于将教师模型的复杂输出变为更简单的输出,从而适应学生模型。在蒸馏学习中,通常有一个教师模型(大型复杂模型)和一个学生模型(小型简化模型)。总体来说,thresholding在蒸馏学习中起到了简化输出、降低模型复杂度的作用,有助于在保持性能的同时减小学生模型的规模。

2023-11-13 09:54:55 86

原创 熵、优化置信度、全连接正确率、监督、1X1卷积核

信息论中的熵概念与公式: 在信息论中,熵是衡量随机变量不确定性的度量。对于一个离散随机变量X,其概率分布为P(X),熵H(X)定义如下:其中,Σ表示对所有可能的取值进行求和,p(x)表示随机变量X取值为x的概率。熵的单位通常是比特(bit)或纳特(nat)等,取决于使用的对数基数。熵的直观理解是表示随机变量X的平均信息量。: 在分类任务中,使用(指数归一化函数)将模型的,用于。然后,。这里的交叉熵损失函数可以看作是最小化目标类别的熵,使得模型在训练过程中更有确定性地预测正确的类别。

2023-10-06 15:19:09 239

原创 多实例学习MIL(easy / hard)

多示例学习(Multiple Instance Learning) - 知乎 (zhihu.com)

2023-10-06 15:15:32 212

原创 集成学习

在Bagging方法中,利用bootstrap方法从整体数据集中采取有放回抽样得到N个数据集,在每个数据集上学习出一个模型,最后的预测结果利用N个模型的输出得到,具体地:分类问题采用N个模型预测投票的方式,回归问题采用N个模型预测平均的方式。预测的时候,随机森林中的每一棵树的都对输入进行预测,最后进行投票,哪个类别多,输入样本就属于哪个类别。也是一种Boosting的方法,与AdaBoost不同,GBDT每一次的计算是为了减少上一次的残差,GBDT在残差减少(负梯度)的方向上建立一个新的模型。

2023-10-06 15:15:18 329

原创 损失函数loss和优化器optimizer

它是必要的,因为PyTorch默认会在反向传播过程中累积梯度,如果不清零,梯度将会累积在后续迭代中,导致结果不正确的参数更新。我们在计算 loss = criterion(out, input)时,这里的out就等于y就等于w1X1+w2X2+w3X3,(虽然y是一些具体的值,但是这些值是由w1X1+w2X2+w3X3构成的),所以。,这里面的参数就是tensor,其有两个地址,分别存放当前值和反向求导的值,loss.backward()后,这个时候就每个参数里面都有导数,然后。

2023-09-13 20:49:06 267

原创 微调(fine-tune)

通过修改预训练网络模型结构(如修改样本类别输出个数),选择性载入预训练网络模型权重(通常是载入除最后的全连接层的之前所有层 ,也叫瓶颈层)再用自己的数据集重新训练模型就是微调的基本步骤。模型微调就是一个迁移学习的过程,模型中训练学习得到的权值,就是迁移学习中所谓的知识,而这些知识是可以进行迁移的,把这些知识迁移到新任务中,这就完成了迁移学习。3)Fine-tune:冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层。

2023-09-11 17:16:59 271

原创 谱聚类的代码 测试版

【代码】谱聚类的代码 测试版。

2023-09-08 20:30:39 52

原创 kmeans算法代码解析

创建数据集以上述代码为例,k=3,即生成3组因为每组都有1个质心,有3个质心。首先,在数据集中随机采样3个点,作为质心。centroids是质心数组。

2023-09-05 16:43:50 68

原创 查看模型参数params

ViT模型前面已定义。

2023-09-01 19:28:59 180

原创 vit(vision transformer)

ViT将输入图片分为多个patch(16x16),再将每个patch投影为固定长度的向量送入Transformer,后续encoder的操作和原始Transformer中完全相同。但是因为对图片分类,因此在输入序列中加入一个特殊的token,该token对应的输出即为最后的类别预测ViT只使用了Transformer的encoder,没有decoder。

2023-08-21 19:27:46 633

原创 Temporal Segment Networks(TSN)

有。

2023-08-21 18:17:49 272

原创 使用tensorboard查看模型

在pytorch的环境下,安装tensorboard和tensorflow我安装在虚拟环境d2l中验证是否安装成功输入如上代码,如果没有报错,则代表安装成功。

2023-08-20 17:55:01 433

原创 week6 8月15日

当给定相同的查询、键和值的集合时, 希望模型可以基于。

2023-08-15 17:51:00 34

原创 【无标题】

query是一个向量,而不是一个值在某些情况下,

2023-08-14 18:32:14 54

原创 week6 8月11日

就是多个循环神经网络叠加(类似于多个感知机叠加)深度rnn每一层隐藏层都需要初始化。

2023-08-11 21:11:19 72

原创 week6 8月10日

(图片有问题)调用pytorch框架。

2023-08-10 21:09:24 42

原创 week6 8月9日

(1) 初始化合成图像,例如将其初始化为内容图像(content image);(2) 利用预训练网络(如VGG-19)的某些层抽取内容图像与合成图像的内容特征,再用某些层抽取风格图像与合成图像的风格特征;(3) 根据抽取出来的content feature map和style feature map计算出内容损失(content loss,使合成图像与内容图像在内容特征上接近)和风格损失(style loss,使合成图像与风格图像在风格特征上接近);

2023-08-09 19:35:34 35

原创 week5 8月3日

每层网络变换 之后的输出分布都不一样,由于输入是前一层的输出,层层叠加,所以每层的输出分布更奇奇怪怪归一化:在每层网络之后,将每个样本归一化到均值为0,方差为1的分布中。但是并不希望每一层的样本分布完全相同,所以每一层都有一个γ和β的线性变化,进行轻微的偏移。γ和β随着训练过程自动调整,所以几乎不完全相同。分布归一化和非线性激活顺序可以调换。第一个可以是其他的变换,卷积之类的引入第三方库归一化处理函数定义一个batch norm类定义网络训练结果简洁版的批量归一化网络。

2023-08-09 09:44:58 31

原创 week5 8月2日

既然卷积了,换句话就是缩小了图像,那为了最大程度上不丢失,就需要多个卷积核,这样就可以保证在降维的同时不失真。然后CNN的层数越多,越深,理论上整个网络中的也就,学习到原始图像的也就。所以,卷积的时候,通道数都是逐步递增的。也就是说,要把数据映射到更高维空间,在更高维空间里分类数据。至于为什么是一步步增加而不是突然增加到最高维,我觉得这有引入更多非线性的考虑。收敛很快,但是容易产生过拟合原来的原连接是,把二维像素矩阵展开为一维,然后根据权重参数,进行mlp全连接。1*1的卷积相当于原来的全连接层。

2023-08-09 09:44:21 43

原创 week 8月6日

步骤3、在剩下的8个预备框和3个未匹配的边缘框中,找到最匹配的一对。即,相似度最高的锚框,重复步骤1、2。当有许多锚框时,可能会输出很多相似的明显重叠的预测边界框,他们都围绕同一个目标。表示,已找到真实框1的预备框a,不需要再匹配框1和预备框a。步骤2、重复步骤1,找到cat的唯一框,直到list中所有的框,要么被用作基准,要么被删除。步骤1、找到全场,相似度最高的锚框,该框默认为未来的真实框1。列项:有4个的边缘框,即,最后应该生成4个真实的框。即,删除了dog的所有框,除了0.9那个。

2023-08-09 09:43:59 65

原创 week5 8月7日

之前的show锚框、nms筛选最合适的锚框的学习,都是基于假设已知样本。对于未知样本,可以通过的方式,选择出合适的锚框。每次选择的锚框大小是不一样的。,相当于,一张图片分成了上千张小图片,每张小图片都单独做特征提取,由于很多区域都是有重叠的,会导致改进之后:不对每个锚框,从零开始做特征抽取。而是一开始就得到一张全图像的特征图。卷积的输入是一整张图片,而不是各个锚框。此外,这个网络还会参与训练cnn之后,得到一张整个图像的特征图。比如,在原图上通过。

2023-08-09 09:43:42 32

原创 week5 8月8日

目标检测的框:正正方方,对一个区域标号语义分割:精确到耳朵皮肤等像素级别,对每一个像素都进行标号用于背景虚化、路面分割其实就是标号的区别(dog dog和dog1 dog2)目标框变形之后,用一个更大的目标框囊括变形的框。

2023-08-09 09:43:04 31

原创 week5 8月4日

(1)在(例如 ImageNet 数据集)上一个神经网络模型,即。(2)创建一个新的神经网络模型,即。它了上除了输出层外的所有。我们假设这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。我们还假设源模型的输出层跟源数据集的标签紧密相关,因此在目标模型中不予采用。(3)为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。(4)在目标数据集(例如椅子数据集)上训练目标模型。我们将,而。卷积神经网络的核心是:(1)提取,比如边缘,轮廓等基础特征。

2023-08-09 09:42:35 32

原创 一直想 一直想 《银河补习班》

一个酷爱地球仪的小男孩,坚定着自己的目标,一步步的,成为入选的唯三航天员。相反的,进厂,是为了能获得优渥的薪资条件,去维持我的生活。《银河补习班》,顾名思义,就是一个梦想着银河的成绩劣等生,在父亲的帮助下,找到了或者说坚定了自己的靶子,不断地射击、射击、射击,最终实现了自己的航空梦,同时改变了校长“荒谬绝伦”的教育理念。都是在校风刻板的学校氛围里,依靠自己的努力,改变了周围的人。其实,它的主线是有点老套的,无非是经典的小坏蛋成长为大骄傲的故事。话糙理不糙,有目标,有一个明确的前进方向,是一个很好的事情。

2023-08-01 20:14:21 31

原创 熵是什么?

根据上面推导,我们很容易看出 h(x)一定与 p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式)。也就是说,信息熵是指所有可能发生的事件,所带来的信息大小。即,sum(事件a发生的概率*事件a所带来的信息大小)越小概率的事情发生了产生的信息量越大,越大概率的事情发生的信息量越小。由于 x,y 是俩个不相关的事件,那么满足 p(x,y) = p(x)*p(y).一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。是对信息的度量,是指一个事件的发生所带来的信息多少。

2023-08-01 12:00:12 53

原创 week4 7月31日

展示一下结果输入图像维度为 1x1x28x28 经过第一层卷积 5x5后 输出为1x6x24x24 则说明使用了6个5x5的卷积核进行卷积操作图中的conv2d函数,设置的是1个输入通道数,6个输出通道(过滤器),以及做了填充,所以输出的是6*28*28。第2个卷积,没有填充,所以经过该卷积之后,特征图会变小。

2023-07-31 21:17:59 28

原创 week4 7月30日

卷积时,常常。如果想要网络很深的话,按照每一层(shape[0]-h+1),会在某一层消失。所以需要填充目的:高效计算、缩减采样次数每次滑动元素的数量:步幅也可以偶数。奇数是因为好填充。机器学习本质:极端的压缩算法(一张图片压缩成一个很小很小的值,每个值都是有语义的)是的,3*3==5个5*5,但是卷积核大的话,会贵,且运算时间要高一点。

2023-07-30 20:34:40 32 1

原创 wee4 7月28日

调整参数时,w=w*lr*梯度的根源主要是因为以及,目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过反向传播的方式,指导深度网络权值的更新。现在gpu大多数采用16位浮点数,因为运算快。lr太大,直接炸掉;lr太小,每次调参幅度太小,几乎不变。梯度0:不管学习多大,学习进度不会有任何进展。因为参数更新时,w-lr*梯度解决方法:resnet:残差网络LSTM:长短期记忆递归LSTM,全称 Long Short Term Memory (长短期记忆) 是一种特殊的。

2023-07-30 14:11:15 27 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除