- 博客(32)
- 收藏
- 关注
原创 loras和checkpoints的概念和应用
最后,checkpoints还可以用于模型选择,选择在验证集上表现最好的checkpoint作为最终的模型。它的核心思想是,对于预训练好的大型模型,并不是所有的参数都对最终的性能贡献很大。在迁移学习中,Loras可以快速地将预训练好的大模型适配到特定的下游任务,同时保持良好的性能。在模型压缩中,Loras可以将大型模型压缩为更小更高效的版本,而不会造成太大的性能损失。loras和checkpoints是机器学习中两项非常有用的技术,能够显著提高模型的参数利用效率和训练的可靠性。
2024-06-04 19:53:43 598
原创 机器学习中的时卷积神经网络
总的来说,TCN继承了CNN处理局部特征的优势,并通过特定的网络结构和操作,赋予了模型处理时间序列数据的能力。相比传统RNN,TCN在长序列建模、并行计算以及模型训练稳定性等方面都有较大优势,在时间序列预测、语音识别等任务中展现了良好的性能。- TCN通过使用扩张卷积(Dilated Convolution)和填充(Padding)等技术,可以保证模型的因果性,即输出只依赖于当前及之前的输入。- 与RNN需要依次处理序列中的每个时间步不同,TCN的卷积操作可以在整个序列上并行进行,提高了计算效率。
2024-05-22 16:02:00 584
原创 机器学习中交叉验证的目的是什么
基于采样的交叉验证(Sampling-based Cross-Validation):传统的交叉验证方法通常是基于对数据集的固定划分,而采样-based交叉验证方法使用采样技术来产生不同的训练集和测试集。通过在交叉验证过程中尝试不同的超参数配置,并基于性能指标选择最佳的配置,可以提高模型的性能和泛化能力。通过在不同的训练集和测试集上多次训练和评估不同的模型,可以比较它们的性能,选择具有最佳性能的模型。交叉验证的目的是为了对机器学习模型进行评估和选择,以了解其在未见过的数据上的性能表现。
2024-05-05 14:15:13 1808
原创 机器学习中的协变量
总结而言,协变量是与研究或建模对象相关的变量。协变量在模型建立、特征选择和因果推断中扮演着重要的角色,有助于建立输入特征与输出目标之间的关系,并控制潜在的混淆因素。在统计学和机器学习中,协变量指的是与研究或建模对象相关的变量。在一个给定的分析或模型中,协变量通常被用作自变量(特征)来解释或预测因变量(目标)。在监督学习中,协变量通常作为输入特征被输入到模型中,用于建立输入特征与输出目标之间的关系。通过引入协变量作为控制变量,研究人员可以更准确地估计自变量与因变量之间的因果关系,排除其他可能的解释。
2024-05-05 14:12:18 523
原创 机器学习中指数加权移动平均线
在计算EWMA时,较早的观测值所占的权重逐渐减小,而较近期的观测值所占的权重逐渐增加。较大的α值意味着较近期的观测值权重更大,相对较远的观测值权重更小,从而使得指数加权移动平均值更加敏感于最近的数据变化。初始时,可以选择给定一个初始的指数加权移动平均值(例如,取时间序列的第一个观测值作为初始值),然后使用上述公式依次计算后续的指数加权移动平均值。其中,EMA(t)表示时间点t的指数加权移动平均值,X(t)表示时间点t的观测值,EMA(t-1)表示时间点t-1的指数加权移动平均值。
2024-05-04 16:59:33 834
原创 机器学习中的简单指数平滑(SES)
在上述示例中,我们定义了一个名为`simple_exponential_smoothing`的函数,它接受一个一维的NumPy数组作为输入的时间序列数据,以及一个平滑系数`alpha`。在示例中,我们使用输入序列`[10, 12, 14, 16, 18]`和平滑系数`0.5`进行简单指数平滑。简单指数平滑的核心思想是基于过去观测值的加权平均来预测未来的值,其中较近的观测值被赋予更高的权重。该方法假设时间序列的未来值与过去的观测值相关,并且随着时间的推移,过去观测值的权重以指数方式递减。
2024-05-04 16:10:50 601 1
原创 机器学习中的灰色模型GM(1,1)
灰色微分方程的形式为:$\Delta x^{(1)}(k) + a x^{(1)}(k) = b$,其中$\Delta x^{(1)}(k)$表示紧邻均值序列的一阶差分,$x^{(1)}(k)$表示紧邻均值序列的值,$a$和$b$是待估参数。它具有简单、可解释性强的特点,适用于具有指数趋势的数据序列,并且在数据量较小、数据质量较差的情况下也能取得较好的预测效果。紧邻均值序列是GM(1,1)模型中的规律性趋势部分,它反映了原始序列的整体趋势。模型预测:使用估计的参数$a$和$b$,可以对未来的值进行预测。
2024-04-25 19:14:45 719
原创 机器学习中的小波神经网络WaveNet
通过堆叠多个这样的卷积层,WaveNet可以建模复杂的音频波形,并生成高保真度的音频信号。WaveNet的一个重要特点是其生成过程是自回归的,即每个音频样本的生成都依赖于之前的样本。这使得WaveNet能够生成连续、逼真的音频波形,并且在语音合成和音频生成任务中表现出色。然而,WaveNet的训练和生成过程相对较慢,因为它需要逐样本地生成音频波形。它在语音合成和音频生成领域取得了显著的成果,并为深度生成模型的发展提供了重要的启示。它结合了小波变换和深度神经网络的思想,以生成高质量的音频波形。
2024-04-24 17:05:30 328
原创 机器学习中的CatBoostEncoder
与传统的特征编码器不同,CatBoostEncoder是一种基于梯度提升树的方法,用于将分类变量转换为数值表示。它的基本思想是利用梯度提升树对分类变量进行建模,然后使用该模型的输出作为编码后的数值表示。具体而言,它将分类变量作为输入,利用梯度提升树模型学习分类变量与目标变量之间的关系,并生成相应的编码。CatBoostEncoder的优点在于它能够有效地处理高基数的分类变量,并且在编码过程中能够保留更多的信息。CatBoostEncoder是一种基于梯度提升树的特征编码器,用于将分类变量转换为数值表示。
2024-04-24 10:16:46 376
原创 机器学习中的Prophet模型
NOTE:尽管Prophet模型在许多场景下表现出色,但对于某些复杂的时间序列数据,可能需要其他更高级的模型或方法来进行建模和预测。Prophet模型的设计目标是提供一种简单且易于使用的方法,以便广泛应用于时间序列预测问题,而不需要深入了解复杂的数学和统计概念。节假日效应:Prophet模型考虑了节假日对时间序列数据的影响,用户可以提供节假日信息,并指定它们对数据的影响方式。非线性趋势:Prophet模型采用了非线性的趋势模型,可以适应各种复杂的趋势形式,包括增长率的变化和饱和效应。
2024-04-23 10:40:11 463
原创 SPC统计过程控制(Statistical Process Control)个人学习笔记
4. 故障模式与影响分析(Failure Mode and Effects Analysis,FMEA):FMEA是一种系统性的风险识别和管理方法,用于识别潜在的故障模式、评估其对产品或过程的影响,并采取相应的预防措施。3. 标准化工作(Standardized Work):标准化工作是一种通过确立一套规范化的工作方法和最佳实践,以实现工作过程的一致性、稳定性和效率的方法。统计过程控制的目标是通过收集、分析和解释过程中的数据,以了解过程的性能,并采取相应的措施来保持过程在可接受的变异范围内。
2024-04-23 09:07:06 1490
原创 机器学习中的Feedforward Artificial Neural Networks(前馈人工神经网络)
在多层感知器中,每个神经元接收来自上一层的输入,并通过带有权重的连接将输入加权求和。例如,在二分类问题中,通常使用一个输出神经元表示两个类别的概率,而在多分类问题中,输出神经元的数量等于类别的数量。每个神经元的输出只与前一层的神经元相关,不会受到后续层的影响。输出层:输出层是网络的最后一层,它产生模型的预测结果。例如,在二分类问题中,通常使用一个输出神经元表示两个类别的概率,而在多分类问题中,输出神经元的数量等于类别的数量。隐藏层中的每个神经元都与上一层的所有神经元连接,并通过带有权重的连接传递信号。
2024-04-22 17:29:01 404
原创 机器学习中transformer
在每个位置,解码器将前一个位置的输出作为输入,并结合自注意力机制和编码器-解码器注意力机制生成当前位置的表示。多头自注意力机制:与编码器中的自注意力机制类似,解码器中的自注意力机制用于计算目标序列中各个位置之间的依赖关系,以生成上下文相关的表示。它的操作步骤与编码器中的自注意力机制相同。编码器-解码器注意力机制:解码器与编码器之间的注意力机制允许解码器在生成每个目标序列位置的表示时,对编码器的输出进行参考。编码器通过堆叠多个相同的自注意力机制和前馈神经网络层,逐步提取输入序列的信息并生成更高级的表示。
2024-04-22 10:49:11 504
原创 机器学习中的Batch normalization
它通过对每个小批量数据进行归一化操作,使得网络在训练过程中更稳定、更快速地收敛,并提高了模型的泛化能力。通过这种标准化操作,Batch normalization可以使得每层的输入保持在一个较稳定的分布范围内,减少了内部协变量偏移的影响。这是由于网络的每一层都依赖于前一层的输出,而每一层的输入在训练过程中可能会发生变化。需要注意的是,在使用Batch normalization时,通常需要注意设置合适的批量大小,并在测试阶段使用移动平均的统计量来进行归一化,以保持一致性。
2024-04-22 10:29:15 246
原创 机器学习中的残差连接residual connection
具体来说,假设该层的输入为x,经过一系列变换后的输出为F(x),那么该层的最终输出就变成了x + F(x)。引入残差连接后,网络在训练时可以更容易地学习到恒等映射,从而有效缓解了梯度消失或梯度爆炸的问题,使得很深的网络结构也能够被有效地训练。残差连接的引入不仅解决了深度神经网络训练过程中的难题,也促进了神经网络模型向更深更强的方向发展。残差连接是一种用于训练深度神经网络的技术,它最初由微软研究院的Kaiming He等人在2015年提出,用于解决深度神经网络在训练过程中存在的梯度消失或梯度爆炸问题。
2024-04-22 09:07:45 426
原创 机器学习中的图神经网络GNN
节点更新函数定义了如何将一个节点的表示更新为考虑其邻居节点的新表示,而边更新函数定义了如何将边的特征与连接的节点的特征结合起来。GNN的设计灵感来源于图的局部性原理,即节点的特征可以由其邻居节点的特征共同影响。典型的GNN模型通过迭代地更新节点的表示,使得每个节点能够融合来自邻居节点的信息,并对整个图进行全局推理和预测。需要指出的是,GNN的发展非常活跃,研究者们提出了许多不同的GNN模型和变体,如Graph Convolutional Networks(GCN)、GraphSAGE、GAT等。
2024-04-21 15:07:17 224 1
原创 机器学习中时间序列的时域和频域
在时域中,我们可以对时间序列应用各种统计分析方法,例如计算均值、方差、自相关函数等,以了解序列的平均水平、波动性和序列之间的依赖关系。我们可以通过将时域数据转换为频域数据,然后在频域中进行分析,再将频域数据转换回时域数据,以获得更全面的认识和预测。时域方法适用于分析序列的趋势和周期性行为,而频域方法适用于分析序列的频率特征和周期性成分。在时间序列预测中,时域(Time Domain)和频域(Frequency Domain)是用于描述和分析时间序列数据的两种不同的表示方式。
2024-04-21 09:58:15 1135 1
原创 机器学习中的模型评估时候绘制混淆矩阵的作用和意义
在混淆矩阵中,每一行表示真实标签的类别,每一列表示模型的预测结果的类别。通过混淆矩阵和上述评估指标,我们可以深入了解模型在不同类别上的表现,识别出模型的强项和弱项。例如,我们可以检查是否存在某些类别的预测结果容易混淆,或者模型是否在某些类别上存在较高的误判率。此外,混淆矩阵还可以帮助我们进行模型的调优和改进。混淆矩阵的主要作用是提供了一种全面的、直观的方式来了解模型在不同类别上的表现。绘制混淆矩阵是模型评估过程中的重要步骤,它提供了对模型性能的全面认识,并帮助我们做出相应的决策和改进。
2024-04-20 17:01:29 342
原创 机器学习中的(classification)交叉熵损失和稀疏交叉熵损失(sparse cross-entropy loss)
例如,对于一个10个类别的问题,每个样本的真实标签可能是以下整数之一:1, 2, 3, ..., 10。稀疏交叉熵损失使用了与交叉熵损失相同的公式,但在计算损失时,它只考虑模型输出的对应类别的概率。其中,i表示类别的索引,q_i表示真实标签的第i个元素,p_i表示模型预测的第i个类别的概率。交叉熵损失的值越小,表示模型的预测结果与真实标签之间的差异越小,模型性能越好。类别10:[0, 0, 0, 0, 0, 0, 0, 0, 0, 1]类别1:[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
2024-04-20 16:15:05 1502
原创 机器学习中的dropout定义及解释
这样做的结果是,每个训练样本都会在不同的子网络上进行训练,从而增加了模型的鲁棒性和泛化能力。Dropout的基本思想是在神经网络的训练过程中,随机地丢弃(屏蔽)一部分神经元的输出,即将它们的权重置为零。通过dropout,网络中的神经元不再过度依赖某些特定的输入特征,因为每个神经元的输出都可能被随机屏蔽。过拟合是指模型在训练数据上表现良好,但在新的未见过的数据上表现较差的情况。总结:dropout是一种强大的正则化技术,可以提高神经网络的泛化能力,并减少过拟合的风险。在测试阶段,dropout通常被关闭。
2024-04-20 16:01:25 856
原创 机器学习中的feedforward神经网络
在一个典型的feedforward神经网络中,数据从输入层进入网络,通过一系列的中间层(也称为隐藏层)的非线性变换,最终到达输出层。它是一种前向传播的网络结构,其中信息沿着网络的层次结构单向传播,没有反馈连接。然后,在反向传播中,使用梯度下降等优化算法来调整网络中的权重,以最小化损失函数。在每个神经元中,输入信号通过加权求和的方式进行线性组合,然后通过一个非线性激活函数进行转换。这个非线性激活函数引入了网络的非线性能力,使得神经网络可以学习和表示更复杂的函数关系。pytorch示例;
2024-04-20 09:54:38 782
原创 机器学习中的数据增强(data augmentation)的概念
在机器学习中,数据增强是一种常用的技术,用于扩充训练数据集,以提高模型的泛化能力和性能。数据增强通过对原始数据应用一系列的随机变换或扰动来生成新的样本,这些新样本在统计上与原始样本相似,但具有一定的差异性。通过在训练过程中随机应用这些数据增强操作,可以生成更多的训练样本,提高模型的泛化能力。通过增加数据集的多样性,模型可以更好地学习到数据的不变性和通用特征,提高泛化能力,减少过拟合。这些方法只是数据增强的一小部分示例,实际应用中可以根据任务和数据的特点选择适合的增强方法。
2024-04-19 16:20:16 496
原创 机器学习中Softmax
4. 将指数向量exp_x中的每个元素除以sum_exp_x,得到一个新的向量y = [exp(x1)/sum_exp_x, exp(x2)/sum_exp_x, ..., exp(xn)/sum_exp_x]。3. 计算指数向量exp_x中所有元素的和,得到sum_exp_x = exp(x1) + exp(x2) + ... + exp(xn)。2. 对向量x中的每个元素进行指数化,得到指数向量exp_x = [exp(x1), exp(x2), ..., exp(xn)]。,通常用于多类别分类问题。
2024-04-19 16:02:56 726
原创 机器学习中Value Embedding, Position Embedding 和 Temporal Embedding
通过Value Embedding,序列中的每个元素都可以用一个固定长度的向量表示,从而方便后续的计算和模型学习。常用的一种Position Embedding方法是使用正弦和余弦函数来生成位置编码,这样生成的位置向量既能表示位置信息,又能保持一定的连续性和相对距离关系。常用的方法是将时间戳转换为具有一定连续性的向量表示,以便模型能够理解时间的演变和趋势。通过将数值、位置和时间信息编码为连续向量表示,模型可以更好地理解和处理序列数据中的关联性、顺序性和时间依赖关系,从而提高模型的性能和表现力。
2024-04-19 10:33:43 1284
原创 机器学习多层感知机
总之,MLP是一种基本的神经网络模型,它可以通过多层的神经元和非线性激活函数来学习复杂的非线性映射关系,实现函数逼近、模式识别和特征提取等任务。通过逐层的特征提取,MLP可以从原始输入数据中发现更抽象、更有用的特征,从而提高模型的表示能力。深度学习通过多个层次的特征提取和组合,可以学习到更复杂、更抽象的特征表示,从而提高模型在复杂任务上的性能。通过调整神经网络的连接权重,MLP可以学习到复杂的非线性映射,从而对输入数据进行预测、分类等任务。它可以通过大规模数据的训练和优化,实现高性能的模式识别和预测能力。
2024-04-19 10:18:21 182
原创 机器学习离散傅里叶变换(Discrete Fourier Transform,DFT)
通过分析这些频谱分量,可以获取信号的频域信息,包括频率成分、频率分布和相位信息等。通过对信号进行DFT,可以将信号从时域转换为频域,而通过逆DFT可以将信号从频域转换回时域,这在很多应用中非常有用。DFT是一种重要的数学工具,可以帮助我们理解信号的频率特性、进行频谱分析、滤波和数据压缩等操作。1. 频谱分析:DFT可以将时域信号转换为频域信号,提供了信号在不同频率上的能量分布信息。通过DFT将信号转换到频域,可以选择性地保留较大的频率分量,而忽略较小的分量,从而实现信号的压缩。
2024-04-19 09:43:27 370
原创 机器学习中特征选择的过滤法包裹法嵌入法详细介绍
这些过滤法方法根据不同的评估标准对特征进行评分和排序,然后根据设定的阈值或指定的特征个数选择相关性较高的特征。适当选择和使用过滤法,可以有效降低特征维度,减轻模型的计算复杂度,并且在一定程度上可以提高模型的泛化能力。包裹法的优点是能够直接评估特征子集对于特定学习算法的性能,选择的特征子集往往更加精确。是一种常用的特征选择方法,它通过特征本身的统计特性来评估特征的重要性,而不考虑后续的机器学习算法。它通过训练和测试一个特定的机器学习算法,来评估不同特征子集的有效性,从而选择最优的特征子集。
2024-04-18 22:14:53 830
原创 机器学习中的自注意力机制
在自注意力机制中,常用的计算相似性的方法包括点积注意力(Dot-Product Attention)、加性注意力(Additive Attention)和缩放点积注意力(Scaled Dot-Product Attention)。自注意力机制通过对序列中不同位置的元素之间的关系进行建模,自动学习每个位置的重要性权重,从而对不同位置的元素进行加权聚合。的机制,最早应用于自然语言处理领域,后来也被广泛应用于深度学习模机器学习中的自注意力机制属于注意力机制(Attention Mechanism)的一种。
2024-04-18 16:34:46 277 1
原创 机器学习中的特征选择方法介绍
该方法首先训练模型,然后根据特征的重要性进行排序,再迭代地剔除重要性较低的特征,直到达到指定的特征数量或性能阈值。正则化方法(Regularization):在训练模型的过程中,通过加入正则化项来约束特征的权重,使得模型更倾向于选择具有更强预测能力的特征。单变量特征选择(Univariate Feature Selection):基于每个特征与目标变量之间的统计测试,选择具有最高得分的特征。方差选择(Variance Thresholding):通过计算特征的方差,选择方差高于某个阈值的特征。
2024-04-18 16:28:13 238 1
原创 机器学习中的STL(Seasonal and Trend decomposition using Loess)分解算法
LOESS是一种非参数的局部加权回归方法,它通过在每个时间点上拟合局部线性回归模型,根据距离远近对样本进行加权,从而获得平滑的季节性成分。它提供了一种有效的方法来理解和描述时间序列数据的不同成分,并为后续的分析和建模提供更准确的基础。趋势分解:在获得季节性成分后,对原始时间序列数据减去季节性成分,得到去除季节性的残差序列。残差分量:最后,将原始时间序列数据减去季节性和趋势性成分,得到残差序列,代表了无法被季节性和趋势性解释的随机波动部分。允许对季节性和趋势性成分进行灵活的调整和控制。
2024-04-18 16:19:29 1139 1
原创 机器学习中的编码器和解码器
编码器将输入序列编码为固定长度的向量表示,解码器根据该向量生成与输入相对应的输出序列。编码器通常由多个层(如循环神经网络的隐藏层或卷积神经网络的卷积层)组成,通过逐步提取和汇总输入数据的特征,将其映射到一个较小维度的表示空间。编码器(Encoder)和解码器(Decoder)是序列模型或生成模型中常见的组件,用于将输入数据转换为有意义的表示,并从该表示中生成输出。近年来,编码器-解码器架构的变体,如Transformer模型,已成为自然语言处理领域的热门模型。的表示,捕捉输入数据中的关键信息。
2024-04-18 16:04:34 486 1
原创 机器学习中的正则化概念
通过适当选择正则化参数的值,可以在模型的偏差和方差之间找到一个平衡点,从而提高模型的泛化性能。L1正则化(L1 Regularization):L1正则化通过在损失函数中添加模型参数的绝对值之和来惩罚参数的大小。不同的正则化方法对模型的影响不同,因此在应用正则化之前,需要进行实验和评估以确定最佳的正则化策略。过拟合是指模型在训练数据上表现良好,但在新的未见过的数据上表现较差的现象。正则化通过在模型的损失函数中引入额外的惩罚项,以约束模型参数的取值范围或降低参数的自由度,从而提高模型的泛化能力。
2024-04-18 09:31:43 217 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人