- 博客(116)
- 资源 (5)
- 收藏
- 关注
原创 Transformer
Transformer是基于自注意力机制(Self-Attention)的模型,自注意力机制的一个特点是它对输入序列中的所有单词同时进行处理,而不是逐步处理。通过位置编码,可以给模型提供每个单词在序列中的位置信息,使得模型不仅能关注单词本身,还能关注单词之间的相对位置关系。位置编码确保了模型能够识别输入序列中的顺序,同时保证输入序列的平移不变性。Transformer使用的常见位置编码方法是正弦和余弦函数,这种方式能够在不同的位置生成唯一的编码,同时具有平滑的变化和良好的扩展性。保持输入顺序的平移不变性。
2024-06-13 21:44:08 1026
原创 DLinear : Are Transformers Effective for Time Series Forecasting?
最近,基于 Transformer 的解决方案在长期时间序列预测(LTSF)任务中大量涌现。尽管在过去几年中这些方法的表现不断提升,我们对这一研究方向的合理性提出质疑。具体来说,Transformer 被认为是从长序列元素中提取语义关联的最成功的解决方案。然而,在时间序列建模中,我们需要提取有序连续点集合中的时间关系。虽然使用位置编码并使用 token 嵌入子序列的方式可以使 Transformer 保留某些顺序信息,但其基于不变置换的自注意力机制本质上不可避免地导致了时间信息的损失。
2024-10-07 21:49:07 916
原创 LOESS(Locally Estimated Scatterplot Smoothing)
LOESS(Locally Estimated Scatterplot Smoothing),即局部加权回归,是一种非参数回归方法。它结合了局部多项式拟合和加权回归,用于平滑数据,特别适合处理具有非线性关系的散点数据。LOESS的核心思想是:对于每一个待估点,它在该点附近的一个邻域内拟合一个低阶(通常是一阶或二阶)的多项式,并使用该多项式来估计该点的值。为了使得拟合能够较好地捕捉局部结构,LOESS使用加权最小二乘法,即对于邻域中的每个点赋予一个权重,权重随着点与待估点的距离增加而减小。
2024-09-29 09:29:47 907
原创 临时代码,随便写写
MSELoss: 定义均方误差损失,用于回归任务中衡量预测值和真实值之间的差距。: 自定义线性层,处理复数输入。它使用两个线性层分别处理实部和虚部,并组合输出。forward方法: 将输入分为实部和虚部,经过线性层后重组为复数输出。self.N = Nself.P = P: 用于实现多项傅里叶变换,通过傅里叶级数对输入数据进行季节性建模。forward方法: 计算傅里叶变换的余弦和正弦分量,并将其与参数a和b进行矩阵乘法,返回变换后的输出。
2024-09-27 09:48:22 754
原创 STL分解(Seasonal-Trend Decomposition using LOESS)
STL分解是一种非常强大的时间序列分析工具,能够将数据分解成可解释的成分,为后续的数据分析、预测和建模提供重要的参考。其优势在于对复杂、非线性、具有噪声的时间序列数据具有良好的适应性与解释力。如果需要对时间序列数据进行深入的趋势和季节性分析,STL分解是一个值得考虑的首选方法。
2024-09-23 20:47:22 1393
原创 提示调优(Prompt Tuning)
提示调优为预训练模型的高效微调提供了一种强大的工具,尤其是在处理少样本、零样本或资源受限的任务时具有重要优势。硬提示和软提示作为提示调优的两大核心方法,各自适用于不同的应用场景。未来的研究方向可能集中在如何进一步提升提示调优的泛化能力,优化提示的设计,以及增强其在多任务和多模态应用中的表现。
2024-09-21 11:19:38 890
原创 预训练的大语言模型及其在时间序列中的应用
预训练的大型语言模型是当前自然语言处理技术中的核心工具,已经在众多领域展现了巨大的潜力和应用前景。尽管在计算资源和解释性方面仍存在挑战,但随着研究的深入,未来预期会有更多轻量化和高效的模型出现,推动自然语言处理技术的进一步发展。
2024-09-21 11:05:07 1038
原创 VCformer
多变量时间序列(MTS)预测已广泛应用于天气预报和能源消耗等不同领域。然而,目前的研究仍依赖于普通的逐点自注意机制来捕捉变量间的依赖关系,这种方法在提取变量间复杂的交叉相关性方面显得不足。为了解决这一问题,我们提出了变量相关变换器(VCformer),它利用变量相关注意力(VCA)模块来挖掘变量之间的相关性。具体而言,基于随机过程理论,VCA计算并整合查询和键之间对应于不同滞后时间的交叉相关性评分,从而增强其发现多变量关系的能力。
2024-07-25 15:26:55 450
原创 归一化(normalization)
通过以上归一化过程,每个输入序列被转换为均值为0,方差为1的标准正态分布,这使得模型在处理不同序列时能够更好地学习数据规律,减弱非平稳性对模型的影响。归一化后的公式x−1μx⊤σxx−1μx⊤σx充分考虑了时间序列数据的特性,通过平移和缩放操作,使得数据的分布更加稳定,有利于模型训练和预测的准确性。
2024-07-04 20:26:48 2414
原创 多层感知机(Multilayer Perceptron, MLP)
多层感知机通过多层全连接网络和非线性激活函数实现对复杂数据模式的学习和建模。其工作原理包括前向传播、损失函数计算、反向传播和参数更新。MLP在许多应用中表现出色,是深度学习的基础模型之一。
2024-07-02 16:18:39 362
原创 小波变换(Wavelet Transform)
小波变换是一种强大的信号处理工具,能够同时提供时间和频率信息,适用于分析非平稳信号。其时频局部化和多分辨率分析特性使得它在信号处理、时间序列分析和图像处理等领域具有广泛的应用。在长时间序列预测任务中,小波变换能够有效捕捉时间序列的局部变化特征,提高预测的准确性和鲁棒性。
2024-07-01 15:39:52 1168
原创 相干性测度(Mutual Coherence)
假设我们有一个矩阵A∈Rm×nA∈Rm×n,它的列向量用a1a2ana1a2an表示。相干性测度μA\mu(A)μAμAmax1≤i≠j≤n∣aiTaj∣∥ai∥2∥aj∥2μA1≤ij≤nmax∥ai∥2∥aj∥2∣aiTaj∣aiai和ajaj分别是矩阵AAA的第ii。
2024-07-01 15:35:02 693
原创 A Time Series Is Worth 64 Words:Long-term Forecasting With Transformer
我们提出了一种高效设计的基于Transformer的模型,用于多变量时间序列预测和自监督表示学习。它基于两个关键组件:(i) 将时间序列分割成子序列级别的补丁,这些补丁作为Transformer的输入标记;(ii) 频道独立性,每个频道包含单一的单变量时间序列,这些序列共享相同的嵌入和Transformer权重。补丁设计自然具有三重好处:嵌入中保留了局部语义信息;在给定相同回看窗口的情况下,注意力图的计算和内存使用量成平方比例减少;模型可以关注更长的历史记录。
2024-07-01 10:34:35 1301
原创 快速傅里叶变换复杂度
快速傅里叶变换(FFT, Fast Fourier Transform)的复杂度之所以是Onlogn,是因为FFT算法通过分治法高效地计算离散傅里叶变换(DFT, Discrete Fourier Transform),而DFT的直接计算复杂度为On2。下面详细解释为什么FFT能够将复杂度降低到Onlogn。
2024-07-01 10:01:40 940
原创 时域自相关计算中,使用卷积而不是点积操作的原因
自相关是一个信号与其自身在不同时间延迟(Lag)下的相关性度量。对于离散时间序列xtx(t)xt,其自相关函数RxτR_x(\tau)RxτRxτ∑txtxtτRxτt∑xtxtτ其中τ\tauτ是时间延迟,表示信号与其自身在不同延迟下的相关性。点积:用于测量两个信号在同一时间点上的相似性,但不涉及时移和翻转,无法捕捉时间序列中的延迟依赖关系。卷积。
2024-07-01 09:51:46 968
原创 频域自相关计算中,使用乘积而不是卷积操作的原因
在频域自相关计算中使用乘积而不是点积,主要是基于傅里叶变换的卷积定理和计算效率的考虑。通过在频域中进行乘积操作,可以高效地实现自相关计算,显著降低计算复杂度,使其更适用于处理长时间序列数据。
2024-07-01 09:43:13 842
原创 频域自相关和自注意力机制区别
注意力机制:通过计算所有元素之间的两两点积来捕捉依赖关系,具有较高的计算复杂度,但在捕捉复杂依赖关系方面非常强大和灵活。频域自相关计算:通过快速傅里叶变换在频域中进行自相关计算,具有较低的计算复杂度,特别适合处理长时间序列数据中的周期性和趋势。这两种方法各有优缺点,根据具体应用场景和数据特点选择合适的方法,可以显著提升模型的性能和效率。
2024-07-01 09:40:35 644
原创 时间序列季节性和周期性
周期性是指时间序列数据中由于经济、政治或其他因素,在较长时间间隔内(如几年或几十年)重复出现的波动或循环。这些波动没有固定的周期长度,且通常持续时间比季节性波动要长。
2024-07-01 09:03:14 891
原创 HDU 1506 Largest Rectangle in a Histogram (DP或单调栈+笛卡尔树)
传送门题目大意:有N条的长条状的矩形,宽度都为1,第i条高度为Hi,相邻的竖立在x轴上,求最大的子矩形面积DP思路及代码求出当前点能够到达的最左边和最右边的位置,答案就是(最右边-最左边)*当前高度ll l[maxn],r[maxn],a[maxn];//l[i]记录i点能够到达最左边的位置//r[i]记录i点能够到达最右边的位置 //最后答案就是(最右边-最左边+1)*a[i] int main(){ int n; while(~scanf("%d",&n)){ if(n
2024-06-30 10:57:50 280 1
原创 Codeforces 1470 B
传送门题目大意两个整数xxx和yyy是有关的当lcm(x,y)gcd(x,y)\frac{lcm(x,y)}{gcd(x,y)}gcd(x,y)lcm(x,y)给你一个长度为nnn的序列aaa。每一秒,所有的aia_iai都会变成序列中所有和它有关的数的乘积。令did_idi为数列中与aia_iai有关的数的个数。qqq次询问,每次询问给出一盒www,求在www秒时的max(di)max(d_i)max(di)思路代码const int maxn = 3e5+7;const ll
2024-06-30 10:48:57 217 1
原创 Codeforces 220B
传送门题目大意给出一个长度为nnn的序列,进行mmm次询问。每次询问区间[l,r][l,r][l,r]内,有多少个数字xxx刚好出现了xxx次。思路枚举右端点rrr,维护左端点lll,设法将sum(l,r)s u m ( l , r )sum(l,r) 表示为区间内的合法数字个数所以以区间[2,2,2,2][ 2 , 2 , 2 , 2 ][2,2,2,2]为例:r=1r = 1r=1,左端点的贡献分别为:[0,0,0,0][ 0 , 0 , 0 , 0 ][0,0,0,0];r=2r =
2024-06-30 10:48:39 543 1
原创 拉普拉斯变换(Laplace Transform)
拉普拉斯变换(Laplace Transform)是一种积分变换,用于将时间域(通常是连续时间)的信号转换到复频域,以便简化对系统的分析和设计。它在控制系统、信号处理、电路分析等领域广泛应用。FsLft∫0∞fte−stdtFsLft)}∫0∞fte−stdt其中,ftf(t)ft是时间域信号,FsF(s)Fs是复频域信号,sss是复数变量,sσjωsσjω。
2024-06-29 18:16:40 2838
原创 Z变换详细介绍
离散时间信号xnx[n]xnXz∑n−∞∞xn⋅z−nXzn−∞∑∞xn⋅z−n其中,zzz是一个复数,zrejωzrejωrrr是幅度,ω\omegaω是相角。
2024-06-29 18:11:09 1156
原创 快速傅里叶变换(Fast Fourier Transform,FFT)
快速傅里叶变换(Fast Fourier Transform,FFT)是一种算法,用于快速计算离散傅里叶变换(DFT)及其逆变换。傅里叶变换将时间或空间域的信号转换为频率域的信号,便于分析信号的频率特性。FFT显著提高了计算效率,将计算复杂度从On2降低到Onlogn。
2024-06-29 17:47:30 1339
原创 谱范数(Spectral Norm)
谱范数∥M∥2∥M∥2定义为矩阵M\mathbf{M}M作用在单位向量上时的最大放大因子。具体来说,谱范数是M\mathbf{M}M的最大奇异值σmaxMσmaxM∥M∥2σmaxM∥M∥2σmaxM。
2024-06-28 15:19:24 2100
原创 矩阵的奇异值(Singular Values)
矩阵的奇异值(Singular Values)是奇异值分解(SVD)过程中得到的一组重要特征值。它们在许多应用中非常重要,如信号处理、数据压缩和统计学等。
2024-06-28 15:10:06 1960
原创 矩阵的核范数(Nuclear Norm)
矩阵的核范数(Nuclear Norm)是一种用于衡量矩阵大小的标准,它特别关注矩阵的奇异值。具体来说,核范数是矩阵所有奇异值的和。奇异值是通过奇异值分解(SVD)得到的,它们是矩阵的非负特征值。核范数在许多应用中都非常有用,例如在矩阵完成问题和低秩矩阵近似中,核范数常用作正则化项,以鼓励解的低秩性质。的奇异值的个数,取决于。
2024-06-28 15:06:09 1446
原创 Frobenius 范数
Frobenius范数在许多领域都有应用,包括数值分析、统计学和机器学习等,特别是在衡量矩阵的大小和比较不同矩阵的差异时非常有用。Frobenius范数是一种用于衡量矩阵大小的标准方法。具体来说,Frobenius范数。中所有元素的平方和再开方得到的。
2024-06-28 14:59:01 1177
原创 长尾分布(Long-tailed Distribution)
长尾分布是重尾分布的一个子类型,其特点是分布的尾部较长,即存在大量的极端值。这些极端值在分布中的出现概率较低,但它们的存在对整体分布的特性有显著影响。长尾分布是统计学和概率论中的一个重要概念,用于描述一组数据中尾部包含较多极端值的情况。它具有慢衰减、幂律分布等特点,并在经济学、互联网、信息检索和推荐系统等领域得到广泛应用。在互联网时代,长尾分布现象更加普遍,对商业策略、市场分析和产品设计等方面产生了深远影响。
2024-06-23 15:42:34 1102
原创 层归一化和残差连接
层归一化和残差连接是深度学习中两种相辅相成的技术。层归一化通过稳定训练过程和提高收敛速度来改善模型的性能,而残差连接则通过缓解梯度消失问题和加速训练来进一步提升模型的性能。在深度网络架构中,这两种技术经常被结合使用,以构建更加高效和稳定的模型。
2024-06-17 15:23:35 1092
原创 深度学习之forward
forwardforwardpropagationforwardforwardforwardforwardforwardReLUSigmoidTanhforwardforward。
2024-06-17 11:06:13 566
原创 基于Kullback-Leibler散度(KL散度)的稀疏性度量
散度越大,表示注意力权重分布与基准分布之间的差异越大,从而可能暗示查询的某些部分被赋予了更高的重要性(即更不稀疏),而其他部分则被忽略了。反之,如果查询的点积分布较为均匀,那么。项会远大于算术平均项,从而导致稀疏性度量。通过将上面两个作差,可以使得当一个查询。具有显著较大的点积时,
2024-06-16 16:18:12 582
原创 KL散度(Kullback-Leibler divergence)
散度用于量化使用一个概率分布来近似另一个概率分布时损失的信息量。散度是基于信息论的概念,而信息的传递方向是有区别的。散度不是真正的距离度量,而是一种相对信息的度量。L散度不满足三角不等式,即。散度始终大于等于零,即。与凸函数的关系:如果。
2024-06-16 10:45:52 1445
原创 激活函数(Activation Function)
引入非线性因素:执行数据归一化:改变数据的线性关系:增强网络能力:SigmoidSigmoidSigmoid函数:公式:(f(x)=11+e−x)(f(x) = \frac{1}{1 + e^{-x}})(f(x)=1+e−x1)特点:输出范围在[0,1][0, 1][0,1]之间,适用于作为预测概率输出。梯度平滑,避免跳跃的输出值,函数可微。缺点:在深度神经网络中梯度反向传递时,可能导致梯度消失,因为sigmoidsigmoidsigmoid函数的导数取值范围在[0,0.25][0, 0.2
2024-06-15 21:00:07 806
原创 梯度计算(Gradient calculation)
梯度下降(GradientDescentGradientDescent)是一种优化算法,用于寻找最小化损失函数(或成本函数)的参数值。它的工作原理是,通过计算损失函数关于模型参数的梯度,然后沿着梯度的反方向(即最陡峭的下降方向)更新参数。这样,每次迭代都会使损失函数值减小(至少在局部上是这样的),从而逐渐接近损失函数的最小值。在深度学习中,梯度尤其重要,因为我们通常使用梯度下降算法来更新神经网络的参数。
2024-06-14 10:40:17 619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人