机器学习
文章平均质量分 77
写进メ诗的结尾。
这个作者很懒,什么都没留下…
展开
-
最小二乘法
在普通最小二乘法中,所有数据点的残差平方和被视为同等重要,而在加权最小二乘法中,可以根据实际情况为每个数据点赋予适当的权重。通常情况下,权重是根据数据点的方差或其他可靠度指标来确定的,较可靠的数据点会被赋予较高的权重,而较不可靠的数据点会被赋予较低的权重。其中,y 是因变量,x 是自变量,β0 和 β1 是待估计的回归系数,ε 是误差项。偏最小二乘法的优点在于可以减少自变量的维度,降低共线性对回归系数估计的影响,同时考虑到自变量和因变量之间的相关性,因此在一些复杂的数据分析问题中具有很好的表现。原创 2024-03-14 11:22:41 · 1013 阅读 · 0 评论 -
机器学习-思维导图
原创 2024-02-20 11:12:54 · 301 阅读 · 0 评论 -
特征选择
一个数据集中的特征数过多,一方面会增加模型的复杂度,另一方也会引入更多的噪声数据,使模型更容易学到噪声,增大发生过拟合的风险。所以变量(特征)过多时,需要从原始特征中选择出一些最有效的特征以降低数据维度,从而减少模型复杂度,并有效提高模型性能。特征选择是机器学习和数据挖掘中的一个重要步骤,目的是从原始特征集合中选择出最具有预测能力和解释性的特征子集。原创 2024-01-29 15:47:41 · 952 阅读 · 0 评论 -
样本均衡
SMOTE(Synthetic Minority Over-sampling Technique)过采样的核心在于生成样本,即在少数类样本之间进行插值(线性插值)来产生额外的样本,进而补充那些数据量少的样本,使得不同标签的样本量达到均衡。SMOTE+ENN 是过采样与欠采样相结合的方法,SMOTE 算法的缺点是生成的少数类样本容易与周围的多数类样本产生重叠并难以分类,而数据清洗技术恰好可以处理掉重叠样本。NearMiss 算法的基本思想是选择多数类样本中与少数类样本最接近的样本,从而减少多数类样本的数量。原创 2024-01-29 11:54:10 · 986 阅读 · 0 评论 -
数据变换
举例来说,假设我们有一个包含房屋价格的数据集,通常情况下,房屋价格是右偏分布的,即大部分房价集中在较低的范围内,但存在少量极高的房价。傅里叶变换将一个复杂的时域信号拆解成若干个简单的频域信号,每个频域信号都对应着输入信号中不同的频率成分,并给出了该频率成分的权重和相位信息。异方差性(Heteroscedasticity)是指在回归分析中,随着自变量的变化,因变量的方差不是常数,而是具有一定的变化趋势。因为回归模型的基本假设之一是误差项的方差是恒定的,如果出现异方差性,那么这个假设就不再成立了。原创 2024-01-29 11:01:21 · 642 阅读 · 0 评论 -
算法模型的评估指标
R2。原创 2024-01-26 15:54:07 · 762 阅读 · 0 评论 -
KNN 回归
它的基本思想是通过找到与给定测试样本最近的 K 个训练样本,并使用它们的输出值来预测测试样本的输出。这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为 0 的数据集(所谓的稀疏数据集)来说,这一算法的效果尤其不好。K 近邻回归算法的基本思想就是,在给定一个新的数据点,它的输出值由其 K 个最近邻数据点的输出值的平均值(或加权平均值)来预测。的取值范围在 0 到 1 之间,越接近 1 表示模型对数据的拟合越好,即模型能够解释更多的因变量的方差。为实际观测值的均值。原创 2024-01-04 15:08:55 · 595 阅读 · 0 评论 -
KNN 分类(选择最佳的 K 值,并可视化模型精度与 n_neighbors 的关系)
【代码】KNN 分类(选择最佳的 K 值,并可视化模型精度与 n_neighbors 的关系)原创 2024-01-04 13:58:58 · 650 阅读 · 0 评论 -
使用 sklearn 构建机器学习算法模型的完整流程
【代码】使用 sklearn 构建机器学习算法模型的完整流程。原创 2024-01-03 19:47:49 · 364 阅读 · 0 评论 -
可视化训练数据
【代码】可视化训练数据。原创 2024-01-03 13:59:32 · 346 阅读 · 0 评论 -
机器学习概述(一)
此外,当数据中存在异常值时,斯皮尔曼相关系数的计算结果会更加稳健。斯皮尔曼相关系数(spearman correlation coefficient),衡量两个变量之间的单调关系强度的非参数统计指标,取值范围为 [-1, 1],-1 表示完全负相关,1 表示完全正相关,0 表示无相关性。皮尔逊相关系数( pearson correlation coefficient),衡量了两个变量(特征)之间的线性相关程度,取值范围为 [-1, 1],-1 表示完全负相关,1 表示完全正相关,0 表示无相关性。原创 2023-12-27 17:55:45 · 1221 阅读 · 0 评论 -
SVM —— 代码实现
SMO 算法的实现步骤:代码如下:为什么要使用核技巧呢?假设二维平面上存在若干点,其中点集 A 服从 {x,y∣x2+y2=1}\left \{x, y|x^2 + y^2 = 1 \right \}{x,y∣x2+y2=1},点集 B 服从 {x,y∣x2+y2=9}\left \{x, y|x^2 + y^2 = 9 \right \}{x,y∣x2+y2=9},它们在平面上的分布如下图所示:蓝色为点集 A,红色为点集 B,它们在二维平面中并不线性可分。如果采用映射的方法,将 (x,y)→(x,y,x原创 2023-12-22 16:45:34 · 1873 阅读 · 2 评论 -
SVM —— 理论推导
SVM支持向量线性可分最大间隔超平面最大间隔超平面的推导支持向量分类间隔的推导最优化问题对偶问题拉格朗日乘子法强对偶性SVM 优化软间隔解决问题优化目标及求解核函数线性不可分核函数的作用常见核函数SVM 算法优缺点支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法,主要用于分类和回归任务。它的核心思想是找到一个最优的超平面或者曲面,将不同类别的样本点分开。在二分类问题中,SVM 试图找到一个超平面来将两个类别的样本点分隔开,并使得两个类别距离超平面的最小间隔最大化原创 2023-12-19 20:28:36 · 1335 阅读 · 0 评论 -
Logistic 回归算法
θ。原创 2023-12-15 17:00:28 · 1234 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯算法是一种基于贝叶斯定理的有监督的机器学习算法,解决的是分类问题,如文本分类、垃圾邮件过滤、客户是否流失,是否值得投资、信用等级评定等领域,并在实际应用中表现出良好的性能。该算法简单易懂,学习效率高,在某些领域的分类问题中能够与决策树、神经网络等算法相媲美。但由于该算法以自变量之间的独立(假设特征之间相互独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。总体来说,朴素贝叶斯算法简单易懂,计算效率高,对小规模的数据集表现良好,但在处理特征之间相关性较强的情况下可能表现不佳。原创 2023-12-05 16:20:05 · 130 阅读 · 0 评论 -
决策树算法
决策树(Decision Tree)是一种常用的机器学习算法,它通过对数据集进行分割来实现分类或回归。决策树的基本思想是,将数据集分成许多小的子集,直到每个子集都变成纯的单一类别或满足某个停止条件。决策树由节点和边组成,其中节点分为两种类型:内部节点和叶子节点。内部节点表示一个特征或属性,边表示该特征的取值。叶子节点表示一个类别或数值。决策树从根节点开始,沿着每个节点的边逐步向下,直到达到叶子节点,然后根据叶子节点的类别或数值进行预测。构建决策树的过程可以分为两个阶段:树的生成和树的剪枝。原创 2023-11-30 10:40:37 · 123 阅读 · 1 评论 -
K 最近邻算法
K 最近邻(K-NearestNeighbor,KNN)算法,是 1967 年由 Cover T 和 Hart P 提出的一种用于分类与回归的方法。基本原理:存在一个带标签的数据集(也称为训练集),数据集中的每一个样本与所属标签一一对应。当输入新的不带标签的样本数据(预测数据)时,新的样本数据的每个特征会与训练集中每个样本的对应特征进行相似度计算,最后提取与预测样本最相似的训练样本的标签。一般而言,我们会选择训练集中前 K 个最相似的样本数据,这就是 K 最近邻算法。原创 2023-11-27 15:48:44 · 161 阅读 · 0 评论 -
回归算法优化过程推导
它的基本思想是通过迭代的方式,沿着目标函数的负梯度方向逐步更新参数,以逐渐接近最优解。其中,工资和年龄是模型构建时的两个特征,额度是模型输出的目标值。一个常规的思路是,我们喂给机器一堆数据,然后告诉它该用什么样的方式学习,并让它朝着这个方向去做(目标/损失函数),每一次学习一点,经过多次迭代优化后,最终收敛至一个稳定的状态。,也许是一个比较难的事,但如果能把乘法转换成加法,对于参数的求解可能就容易了许多。其中,在各个样本都符合独立同分布的情况下,联合概率密度就等于各样本概率密度的乘积,因此这里用了累乘。原创 2023-11-22 19:22:30 · 668 阅读 · 0 评论 -
线性回归
简单地说,Lasso 可以自动地从所有的特征中找出对目标变量最重要的特征,并将其它特征的系数缩小或压缩为零,从而实现模型的稀疏性。线性模型的另一个优点在于,利用我们之间见过的用于回归和分类的公式,理解如何进行预测是相对比较容易的。alpha 值变小,我们可以拟合一个更复杂的模型,但如果把 alpha 设得太小,那么就会消除正则化的效果,并出现过拟合,得到与 LinearRegression 类似的结果。通过引入正则化项,岭回归可以在最小化残差平方和的同时,限制参数的大小,从而降低了过拟合的风险。原创 2023-11-16 11:09:12 · 98 阅读 · 0 评论 -
几种常见的插值方法
插值和拟合的区别在于插值方法可以确保通过已知数据点,因此在这些点上的结果是准确的,但在已知数据点之外的区域可能不准确;而拟合方法是找到一个整体的近似描述,可以在已知数据点之外的区域进行预测或估计,但结果可能有一定的误差。插值可以被认为是拟合的一种方法。原创 2023-08-09 11:39:54 · 6106 阅读 · 0 评论 -
主成分分析
换句话说,PCA试图找到最能够解释数据变异性的主要方向(主成分),这些主成分是数据中最重要的特征,通过按照方差大小递减的顺序选择,可以实现降维。数据降维的主要目的是在尽量保留原始数据的关键特征的前提下,减少数据的维度。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,依次类推。然而,协方差的值无法直接比较,因为它受到随机变量尺度的影响。其中,v是一个非零向量,λ是一个标量,则λ被称为矩阵A的特征值,v被称为对应于特征值λ的特征向量。原创 2023-07-31 17:36:04 · 859 阅读 · 0 评论