- 博客(59)
- 收藏
- 关注
原创 pycharm连接linux服务器需要提前安装ssh服务
或对于较新的 RHEL/CentOS 版本使用:安装完成后,可以使用以下命令之一来启动 SSH 服务:注意:在某些情况下, 命令可能用于客户端,而服务名称可能是 。为了确保 SSH 服务在系统重启后自动启动,可以使用以下命令之一:启动 SSH 服务后,可以使用以下命令之一来检查 SSH 服务的状态:如果 SSH 服务成功启动,你将看到类似“active (running)”的提示信息。
2024-10-08 14:58:23 394 1
原创 Mamba成功解决:“# import selective_scan_cuda”问题
import selective_scan_cuda爆红,直接注释。一:不用管爆红,直接运行。不用管爆红,直接往下继续做。
2024-10-07 11:21:30 980
原创 U mamba配置问题;‘KeyError: ‘file_ending‘
是否指向正确的路径,并且该路径下确实有。:在抛出异常之前,添加打印语句输出。函数中,添加检查逻辑以处理缺失的。:确认 JSON 文件中确实有。的内容,确保其被正确加载。,并且它的拼写完全正确。这个错误仍然是因为在。
2024-10-06 17:19:15 438
原创 数据集下载链接
COCO 2017网址:http://images.cocodataset.org/zips/train2017.ziphttp://images.cocodataset.org/zips/val2017.ziphttp://images.cocodataset.org/zips/test2017.ziphttp://images.cocodataset.org/zips/unlabeled2017.zip
2024-09-12 14:10:47 216
原创 Initializing libiomp5md.dll, but found libiomp5md.dll already initialized
比如我在pycharm中使用的是虚拟环境pytoch1.7,在pycharm的右小角可以看到自己当前使用的环境。之后我在该文件夹下搜索libiomp5md.dll文件果真存在两个,那么删除其中一个就好了,为了保险起见,我们可以进行备份。那么可能是该库影响了,那么可以尝试一下该命令conda install nomkl 对该包进行安装,看是否能解决问题。该语句建议放在文件的顶头部分,且保证两句接连的前后顺序关系,即不要在这两个语句之间插入其他语句。我的问题属于情况一,所以是成功解决了我的问题。
2024-09-11 15:42:49 1222
转载 国内常见与人工智能(深度学习、机器学习)相关比赛合集
以下比赛一般最近一年一次,一届一届的办,不过在我们学校都不算ABC类,但在要继续走一下还是挺有用的,当然钱也比普通比赛奖励的多。特点:国内业界领头羊,研究生的天堂,只给题目和真实数据,要求从数据处理到构建网络,搭建模型等全自己解决。难度:三颗星(四颗) 拿奖简单,学生参与然后跑通多加点预训练好像就有国三,(建议学了一两年再参加)特点:最好组队参加,写博客形式,切记要系统性,有规划的写,尽量写有特色(花)一点。【深度学习】和【动手学深度学习】《动手学深度学习》【Python深度学习:基于PyTorch】
2024-08-29 09:37:31 222
原创 powershell出现问题
安装好Anaconda后,cmd中可以正常使用,但powershell中无法activate环境(在我电脑上的表现为activate后通过conda env list查看环境,可以看到并没有激活成功),需要打开powershell输入以下命令,然后重新打开powershell。. : 无法加载文件 C:\Users\Xin\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本。
2024-08-18 11:53:03 331
原创 安装deepspeed包
直接 pip 安装 deepspeed 的报错信息如果直接使用 pip install DeepSpeed 安装,会触发如下报错信息。出现后,需使用如下方法完成安装。test.cLINK : fatal error LNK1181: 无法打开输入文件“aio.lib”
2024-08-17 21:15:55 507
原创 ValueError: __len__() should return >= 0
因为default='ETTm1'和default='ETTh1.csv'不是一个文件。将ETTm1换为ETTh1即可。
2024-08-12 13:59:53 436
原创 torch.var() 函数
函数是 PyTorch 库中的一个函数,用于计算张量(Tensor)的方差(variance)。方差是衡量数据分布离散程度的一个统计量,表示各数据偏离平均数之平方和的平均数。在 PyTorch 中,函数提供了灵活的方式来计算方差,包括是否考虑无偏估计(即除以N-1而不是N,其中N是样本数量),以及是否沿着特定的维度计算方差。
2024-08-08 11:18:46 565
原创 torch.topk() 函数
是 PyTorch 中的一个非常有用的函数,它用于返回输入张量中每个元素沿指定维度的最大k个元素及其索引。这个函数在很多场景中都非常有用,比如找到每个类别中得分最高的几个元素,或者在处理自然语言任务时选择概率最高的几个单词等。
2024-08-07 15:57:35 366
原创 MULTI-SCALE TRANSFORMERS WITH ADAPTIVE PATHWAYS FOR TIME SERIES FORECASTING讲解
该模型从接收原始时间序列数据("Original Time Series")开始,通过一系列精心设计的组件逐步提取、处理和融合信息,最终由"Predictor"生成输出结果。该流程图描述了一个从图像输入到最终输出(可能是分类、检测或其他形式的预测)的完整处理流程。它涉及图像分割、特征提取、注意力机制、数据融合、路径选择以及可能的季节性或趋势分析等多个步骤。该流程图展示了一个高度集成和复杂的计算机视觉处理流程,它结合了多种技术和算法来处理图像数据。
2024-08-06 17:30:10 1030
原创 SAMformer的浅层轻量级Transformer模型
论文《Unlocking the Potential of Transformers in Time Series Forecasting》提出了一种名为SAMformer的浅层轻量级Transformer模型,旨在解决传统Transformer在时间序列预测中面临的训练不稳定和泛化能力差的问题。与传统的Informer模型相比,SAMformer在多个方面进行了改进和优化。下面我将从论文的数学公式、网络结构以及与传统Informer的区别三个方面进行讲解。
2024-08-06 16:10:58 838
原创 ICLR中FIFT时间序列运行cpu和gpu报错
例如这个错误发生的原因是在尝试使用索引()从一个张量()中检索元素时,索引张量和被索引的张量不在同一个设备上。在你的例子中,很可能在 CPU 上,而可能在 GPU 上(或者反过来,但通常 GPU 到 CPU 的操作更常见)。要解决这个问题,你需要确保索引张量和被索引的张量在同一个设备上。
2024-08-06 14:36:56 149
原创 itransformer和transformer的embedding 的区别
在iTransformer模型中,Embedding层与传统Transformer模型中的Embedding层存在显著的区别。这些区别主要体现在对时间序列数据的处理方式以及如何利用Transformer组件来捕捉时间序列中的信息。
2024-08-05 20:48:45 839
原创 对比iTransformer与传统Transformer
假设我们有一个简单的多变量时间序列数据集,包含两个变量:温度(T)和湿度(H),每个变量都有连续10天的观测数据。我们的目标是预测未来几天的温度和湿度。传统TransformerEmbedding每个时间步(包含所有变量)嵌入为一个token每个变量的整个时间序列嵌入为一个token自注意力机制捕捉时间步之间的依赖关系,但变量之间的相关性可能不够精细捕捉变量之间的相关性,由于每个token是变量的完整时间序列,因此相关性捕捉更精细前馈网络处理多变量混合的token表示,生成最终预测。
2024-08-05 20:30:30 619
原创 嵌入(Value Embedding)和位置嵌入(Positional Embedding)的概念
嵌入(Value Embedding)和位置嵌入(Positional Embedding)的概念。不过,需要澄清的是,在标准的NLP术语中,"值嵌入"这个表述并不常见,而"词嵌入"(Word Embedding)是一个更为常见和标准的术语,用于表示将词汇表中的每个单词映射到一个高维向量空间中的技术。而"位置嵌入"则是用来处理序列数据中元素位置信息的嵌入技术。下面,我将分别用"词嵌入"和"位置嵌入"来举一个形象的例子,以便更好地解释这句话的意图。
2024-08-05 20:21:56 697
原创 attention层和feedforward层中itransformer和transformer有什么区别?
iTransformer与传统Transformer相比,在注意力层上引入了独立注意力机制,允许每个维度独立地处理注意力分配,而不是全局交互。这对于处理多维数据尤其有效。至于前馈神经网络层,两者在基本结构上保持相似,主要差异体现在如何处理输入的维度信息。这些区别使得iTransformer在某些特定任务和数据类型上可能表现更优,特别是那些需要考虑多维度信息交互的情况。
2024-08-05 17:31:14 265
原创 torch.cat()函数讲解并举一个例子
是 PyTorch 中的一个非常有用的函数,它用于沿着指定的维度将一系列张量(tensor)拼接起来。这个函数在处理批处理数据、合并不同来源的特征或生成更大的张量时非常有用。
2024-08-05 15:07:11 629
原创 nn.Embedding(args.vocab_size, args.d_model)
这行代码是在模型中创建一个嵌入层(Embedding Layer)。嵌入层在自然语言处理任务中非常常见,用于将离散的词汇索引(例如单词、token等)映射到连续的向量空间中。
2024-08-04 20:18:59 289
转载 【无标题】
以图中第1行权重为例,当解码器对第1个时刻进行解码时其对应的输入只有,因此这就意味着此时应该将所有的注意力放在第1个位置上(位置上,尽管在训练时解码器一次喂入了所有的输入),换句话说也就是第1个位置上的权重应该是1,而其它位置则是0。在解码后续的时刻也是类似的过程。在第二个时刻,最后Decoder的输出应是一个和Decoder的输入大小一致的(2, 512)的tensor,而要想得到t2时刻数据,Decoder的输出应该是一个(1, 512)的tensor。
2024-08-04 15:09:33 26
原创 mamba中数学定义
这里,f'(x)表示函数f(x)在点x处的导数。因此,Δy可以看作是Δx乘以函数在该点的导数。这里似乎出现了误解,Δ* (h的倒数)并不是标准的数学术语,可能会导致混淆。微分定义中,通常我们用Δx表示自变量x的增量,Δy表示因变量y的增量。一:微分定义中Δy等于Δ* (h的倒数)为什么?
2024-08-03 20:40:58 377
原创 Vit transformer中class token作用
因为transformer输入为一系列的patch embedding,输出也是同样长的序列patch feature,但是最后要总结为一个类别的判断,简单方法可以用avg pool,把所有的patch feature都考虑算出image feature。其中训练的时候,class token的embedding被随机初始化并与pos embedding相加,因此从图可以看到输入transformer的时候, 0 处补上一个新embedding,最终输入长度N+1.
2024-08-03 10:43:34 922
原创 查看生成的checkpoints的pth格式文件
pthfile = r'./model_0.pth' # .pth文件的路径(这里要改成你的文件名字)model = torch.load(pthfile) # 设置在cpu环境下查询。# 使用repr函数可以获取值的准确表示,适合于复杂的数据结构。# 将键和值转换为字符串,并写入文件。# 写入模型字典的value。现在对应目录建一个txt程序,为。# 写入模型字典的key。# 写入模型类型和长度。# 打开一个文件用于写入。
2024-08-02 09:18:33 448
转载 相对路径,绝对路径
先给大家看看我的目录结构,model.py和test目录在同一级。train.py在test目录中,model.py在train.py的上一级目录。sys.path的作用:当使用import语句导入模块时,解释器会搜索当前模块所在目录以及sys.path指定的路径去找需要import的模块,所以这里是直接把上级目录加到了sys.path里。“..”的含义:等同于linux里的‘..’,表示当前工作目录的上级目录。实际上python中的‘.’也和linux中一致,表示当前目录。再import即可。
2024-08-01 20:54:30 19
原创 检查cuda是否可用
import torchprint(torch.__version__)print(torch.cuda.device_count())print(torch.version.cuda)print(torch.cuda.is_available())
2024-08-01 13:01:06 379
转载 Invoke-Expression : 无法将参数绑定到参数“Command”,因为该参数为空字符串
运行Windows Anaconda Powershell Prompt 报错显示:Invoke-Expression : 无法将参数绑定到参数“Command”,因为该参数为空字符串。所在位置 D:\anaconda\shell\condabin\Conda.psm1:107 字符: 36(对应自己报错路径和文件行数)原文链接:https://blog.csdn.net/njj15760675213/article/details/128184720。
2024-07-31 12:34:26 445
原创 nn.MSELoss()--均方误差损失函数
通常情况下,它与优化器(如 SGD、Adam 等)结合使用,作为模型训练的目标函数之一,用于衡量模型预测结果与真实值之间的误差,从而指导模型参数的更新和优化。在深度学习中,均方误差是常用的一种损失函数,特别适用于回归问题,即预测连续数值的问题。在这个例子中,我们首先导入了 PyTorch 库,然后定义了一些假设的真实值和预测值。是一个用于计算均方误差损失的方便函数,适用于许多回归问题的模型训练过程中。计算的是预测值与真实值之间每个元素差的平方的均值。最后,打印出了计算得到的均方误差损失值。
2024-07-30 10:51:24 693
原创 dec_out[:, -self.pred_len:, :]意思
这种负数索引和切片操作在处理序列数据时非常有用,特别是在需要获取序列的最后几个元素时,可以使用负数索引来简化代码。
2024-07-30 09:48:45 474
原创 卷积层维度计算
在你的情况下,输入维度为96,经过一个卷积操作(kernel_size=3, stride=2, padding=1),可以得到输出维度为48的特征图。因此,通过 (kernel_size=3,stride=2,padding=1)(kernel_size=3,stride=2,padding=1) 的卷积操作,可以将输入维度为96的特征图转换为输出维度为48的特征图。给定输入大小为 𝑊in=96Win=96 (宽度)、卷积核大小 𝑘=3k=3、步幅 𝑠=2s=2、填充 𝑝=1p=1。
2024-07-29 21:06:29 451
原创 深度学习中,广播(broadcasting)机制
在这些操作中,如果操作数的形状不同,但满足广播规则,系统会自动扩展其中一个操作数以使其与另一个操作数的形状匹配,然后执行逐元素的运算。这种机制使得在某些情况下,可以对形状不同但具有一定兼容性的张量进行操作,而无需显式地扩展张量的维度或复制数据。这样,通过广播机制,我们可以避免显式地复制数据或者扩展维度,使得逐元素操作在形状不完全匹配但满足广播规则的张量上自然进行。:如果一个张量的某个维度为1,而另一个张量在该维度上有大于1的大小,则通过复制该维度上的数据来扩展至相同大小。,然后进行逐元素的加法运算。
2024-07-29 19:51:22 983
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人