weixin_44040169-CSDN博客

原创 Dataset数据集加载以及元学习格式加载数据

关于数据集格式重组，重写Dataset函数Dataset源码全部的其他数据集类都要继承这个类，里面的必须要重写。def里的idx是根据__len__的长度范围内随机生成的。

2024-04-02 10:47:34 202

在train模式下和在test模式下Decoder的输入是不同的，在train模式下Decoder的输入是Ground Truth，也就是不管输出是什么，会将正确答案当做输入，这种模式叫做teacher-forcing。，在Encoder中是将所有的词一起输入一起计算，但是在Decoder中不是的，在Decoder中依然是像RNN一样一个一个词输入，将已经出现的词计算得到的Q与Encoder计算得到的K,V进行计算，Decoder在训练的时候应该是可以并行化的，在测试的时候不可以并行化。

2024-03-29 11:19:31 410

原创语言模型transformers调用部分 (To be continue...

原来自回归模型的model.generate不能用于训练！！？？

2024-03-24 21:49:00 495

原创模型参数加载

然而，nn.Parameter(torch.ones(10))这样使用nn.Parameter进行初始化的，当然此时模型类在定义时需要写一个能将模型参数通过外部数据进行赋值的函数，通过该函数将params传进去即可。也就是0维竖着看，1维横着看。

2024-03-23 16:13:28 194

原创定时间启动.sh

机器正有人用着，大概1点以后用完自己才能跑，所以定个时大概1点以后运行一下看看显卡有没有空能不能跑。不能跑的话一个小时后再试试。

2024-03-23 16:07:29 132

原创调用大语言模型相关部分

调用大语言模型相关部分代码

2024-02-29 22:06:08 297

原创预训练模型下载

预训练模型下载

2024-01-30 17:17:13 429

原创调用GPT3接口的一些参数

GPT3接口

2024-01-27 22:28:54 692

原创 linux远程服务器上下载模型等

记录一下在使用服务器下载时出现的一些问题和解决方法。镜像链接huggingface。git下载太慢，需要设置代理。找到openai包的位置。

2024-01-22 19:50:17 557

原创 C盘占内存能删的部分

C:\Users\用户名\AppData里面一般有三个文件夹，分别是Local，LocalLow，Roaming，简单地来说，都是用来存放软件的配置文件和临时文件的，里面有很多以软件名称或软件公司命名的文件夹，理论上都可以删除。软件在慢慢的使用过程中，我们会发现这个软件越来越顺手，可能你改了软件的主题，可能你改了布局，也可能你改了相应的快捷键，等等，特别是一些可定制性强的软件。C:\Users\用户名\AppData\Local\Temp里面是临时文件。里面存放的是软件运行时和结束后的数据和配置文件。

2024-01-18 20:49:04 420

原创余弦距离和余弦相似度的区别

余弦相似度，就是计算两个向量间的夹角的余弦值：cosθ ，取值范围 [-1,1]。余弦距离就是用1减去这个获得的余弦相似度：1-cosθ ，取值范围 [0,2]。余弦距离和欧氏距离一样都可以用来衡量向量距离：都是值越大，距离越远。

2023-12-21 16:03:43 478

原创 python plot绘图

使用python绘制t-sne图，并保存。

2023-11-21 19:35:39 102

原创 Latex

【代码】Latex。

2023-10-24 22:36:38 158

原创模型参数加载，权重参数加载

模型参数加载，权重参数加载。

2023-05-31 20:43:17 300

原创 Neural ODE 神经常微分方程

欧拉法求解：欧拉法求解过程是一个递归的过程，这个思想和牛顿法、梯度下降法是相似的。它就相当于是计算器，我们给出初始to,h(t0),神经网络，要求的时间t ，它就可以自动求解。先由当前点用欧拉法求出下一点wi+1’的值，再用当前点梯度和预报点梯度的平均作为区间平均变化率求解真正wi+1点的值。最近的研究发现梯度下降算法的迭代过程(GDA) 可以看作是常微分方程 (ODE) 的欧拉离散化。先用欧拉法估计h/2处的梯度，再用这个值计算wi+1。设计一个网络来估计我们要求的参数的梯度，这里是原型p。

2023-04-25 20:02:30 1120

原创拉格朗日乘子法

DeepEMD里有对拉格朗日乘子法的使用看看，这个（6）就是KKT conditions。

2023-03-02 21:13:50 144

原创熵，线性规划，半监督自监督聚类打标签

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。划分式聚类方法需要事先指定簇类的数目或者聚类中心，通过反复迭代，直至最后达到"簇内的点足够近，簇间的点足够远"的目标。，第一次用输出的概率进行加权平均，然后用余弦距离加伪标签，然后用k-means聚类的方法再求一次聚类中心，再用余弦距离加伪标签，这样得到的伪标签较为准确。对象的信息熵是正比于它的概率的负对数的，也就是。

2023-02-28 21:17:37 553

原创 if name==‘main‘:、argparse.ArgumentParser()，集合

1： python 后面直接跟文件名，这个时候把python程序当做脚本来运行。无论是在cmd当中执行“”python file.py“”这样的命令，还是IDE当中点击run运行都是这样运行的。python中的字典对象可以以“键：值”的方式存取数据。OrderedDict是它的一个子类，实现了对字典对象中元素的排序。name or flags - 一个命名或者一个选项字符串的列表，例如 foo 或 -f,action - 当参数在命令行中出现时使用的动作基本类型。choices - 可用的参数的容器。

2023-01-17 20:23:31 369

原创特征解耦,torch.cumprod(),np.random.seed(),plt.scatter

特征解耦，x.detach阻断梯度回传，torch.cumprod()累乘，np.random.seed(0)产生相同的随机数，plt.scatter画图

2022-12-03 09:38:01 1138

原创 enumerate(),plt绘图,保存json,cv2.resize,baseline

1.enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。baseline 就只是「参照物」的意思，至于 baseline 系统是怎么来的、性能如何，并没有一定的标准。INTER_LINEAR - 双线性插值，如果最后一个参数你不指定，默认使用这种方法。resize是opencv库中的一个函数，主要起到对图片进行缩放的作用。这么说resize岂不是和上采样和下采样功能方法几乎一致？放大缩小都使用的以上插值方法。

2022-11-30 19:15:30 438

原创 Pytorch使用Grad-CAM绘制ViT热力图

（2）反向梯度传播是从最后预测开始，逆着经过整个模型，而Dropout和MLP都是单个token做的，不能将最后y_c结果梯度传给所有token，只有在倒推回自注意力后才能将梯度返传给所有token。所以，去掉class_token序列，拿到所有组成原图的token，将它们reshape回原图的大小。图片划分patch，加上class_token，加上位置编码，传到transformer，分类预测。（1）在代码得到CAM图时，由于VIT最后得到的是patch的梯度，要reshape成二维图。

2022-11-25 22:39:39 4436 5

原创 Pytorch使用Grad-CAM绘制热力图

使用grad_cam对不同预测目标的图像做activate图。需要模型feature的最后一层，模型训练权重。使用的是自己训练的MobileNetV2。原理与代码学习自B站。

2022-11-24 12:05:03 5191 6

原创模型训练，预测，数据集调用

模型做预测时的各种参数值。各种数据集调用形式。

2022-11-23 20:48:27 216

原创数据集导入预处理和多张图片预测

训练和验证数据集的导入和预处理。预测多张图片导入和预处理。整理成函数可以直接调用，见以下代码。

2022-11-23 20:29:05 380

原创 MobileViT代码实现部分细节重点

MobileVIT代码unfold部分

2022-11-19 22:25:44 383

原创 Swin Transformer代码实现部分细节重点

swin transformer 部分重点代码

2022-11-19 15:47:57 564

原创概率论的一些知识

F ( x ) F ( x )F(x)在点x xx处的函数值表示X XX落在区间( − ∞ , x ] (−\infty,x](−∞,x]内的概率，所以分布函数就是定义域为R RR的一个普通函数，因此我们可以把概率问题转化为函数问题，从而可以利用普通的函数知识来研究概率问题，增大了概率的研究范围。1.PDF：如果X 是连续型随机变量，定义概率密度函数为f X (x)，用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率，即。3.A与B的联合概率表示为 P(AB) 或者P(A,B),或者P（A∩B）

2022-11-01 20:44:57 395

原创有无监督，上下游任务，高斯分布，BN总结

6.在深度学习中，语义信息可以通俗的理解成是图像的纹理，颜色，或者目标的类别等信息，例如在检测网络中，一个图像输入到网络中，经过一层层的卷积之后，语义信息会越来越明显，但是相对的位置信息会越来越弱，因为越到高层卷积的时候，feature map映射到原图中的感受野越大，这样对局部的位置信息感受就比较差。有激活函数解决这个问题。，现实中的很多随机变量是由大量相互独立的随机因素的综合影响所形成的，而其中每一个因素在总的影响中所起的作用都是微小的，这种随机变量往往近似服从高斯分布（中心极限定理的客观背景）。

2022-10-24 20:35:40 2290

原创 logit,熵,聚类等知识总结

Kmeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。③进行的是全局优化，强调一个神经网络模型囊括模型中所有步骤：可以实现各个子步骤的综合的、全局的优化的模型也可以叫作端到端。用基于P的编码去编码来自Q的样本，所需要的比特个数。

2022-10-13 16:47:26 697

原创 torch.nn.Parameter()，nn.Embedding()

含义是将一个固定不可训练的tensor转换成可以训练的类型parameter，并将这个parameter绑定到这个module里面(net.parameter()中就有这个绑定的 parameter，所以在参数优化的时候可以进行优化)，所以经过类型转换这个变量就变成了模型的一部分，成为了模型中根据训练可以改动的参数。（2）使用self.test = torch.nn.Parameter(torch.rand(1, 2))#注意：Parameter大写P。1.torch.nn.Parameter()函数。

2022-09-17 10:14:12 2712

空空如也

空空如也