机器学习
文章平均质量分 74
学会聆听和表达
学习的主要意义在于,当你遇到问题时,多一种解决的参考罢了。
展开
-
二分类问题中的性能指标【python,机器学习,算法】
平均绝对误差(Mean Absolute Error, MAE)是衡量模型预测误差的一种方法,通常用于回归分析。它表示的是预测值与真实值之间差的绝对值的平均数。MAEN1i1∑N∣yi−y∣其中yi表示第i个数据的预测值,y表示第i个数据的真实值。MAE通常用于评估模型在预测连续值时的性能,例如在天气预报、股票价格预测等领域。原创 2024-06-25 22:32:40 · 766 阅读 · 0 评论 -
二分类问题的性能指标【python,机器学习,算法】
在这里,我们将讨论各种性能指标,这些指标可用于评估分类问题的预测。原创 2024-06-25 00:14:10 · 693 阅读 · 0 评论 -
轮廓系数【python,机器学习,算法】
假设样本集合为Sa1a2a3anSa1a2a3...an,该样划分成 4 个聚类G1G2G3G4G1G2G3G4,对于每个样本aia_iai计算aia_iai样本到aia_iai所在聚类G1G_1G1中的每个样本的距离,然后取平均值Gaiˉ\bar{Ga_i}Gaiˉ。分别计算aia_iai到其他聚类的平均距离,取最小的平均值G。原创 2024-06-23 18:35:56 · 1146 阅读 · 0 评论 -
聚类层次【python,机器学习,算法】
层次聚类算法(Hierarchical Clustering Algorithm)是一种常用的无监督学习算法,用于将数据集划分成多个不同层次的簇。与K均值聚类不同,层次聚类不需要预先指定聚类数量,而是通过计算样本之间的相似度或距离来构建一个层次结构。自上而下的分解(Divisive)。原创 2024-06-07 22:36:41 · 1069 阅读 · 0 评论 -
KNN 算法【python,机器学习,算法】
KNN(K-Nearest Neighbors)算法是一种基本的、易于理解的机器学习算法,用于分类和回归问题。在 KNN 中,一个对象的分类或值是基于其k个最近邻居的多数投票或平均值来决定的。原创 2024-06-05 22:19:18 · 668 阅读 · 0 评论 -
DBSCAN 算法【python,机器学习,算法】
一般情况下,最小数据点数取数据维度值的 2 倍数,最小取 3。该参数越大,可能的噪声点会被聚类,同样的邻域半径越小,噪声点也会被分类。DBSCAN 即 Density of Based Spatial Clustering of Applications with。上述代码实现了一个简单的 DBSCAN 算法。注意,在实际应用中,你需要根据实际情况调整邻域半径参数和核心点周围最小数据点数。Noise,带噪声的基于空间密度聚类算法。原创 2024-06-05 22:13:39 · 394 阅读 · 0 评论 -
均值漂移算法(Mean Shift)【python,机器学习,算法】
均值偏移(Mean shift)算法是在特征空间中应用核密度估计的爬山算法,其算法思想是假设不同簇类的数据集符合不同的概率密度分布,找到任一样本点密度增大的最快方向(可以通过Mean shift计算得到),样本密度高的区域对应该簇类的中心所在,这样样本点最终会在局部密度最大处收敛,且收敛到相同的局部最大值的样本点被认为是同一簇类的成员。这段代码实现了一个均值漂移(Mean Shift)算法的简化版本,可以用于数据的聚类计算。以上步骤会计算出簇的质心,以及每个簇中统计到数据点的频数。原创 2024-06-04 22:23:28 · 645 阅读 · 0 评论 -
SMV 算法【python,机器学习,算法】
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM 使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险。原创 2024-06-02 21:17:55 · 849 阅读 · 0 评论 -
逻辑回归【python,机器学习,算法】
逻辑回归是一种有监督的学习分类算法,用于预测目标变量的概率。目标或因变量的性质是二分法的,这意味着将只有两个可能的类。主要解决二分类问题。进行逻辑回归模型训练以及预测。上述代码演示了如何使用。原创 2024-05-30 08:19:31 · 542 阅读 · 0 评论 -
线性回归【python,机器学习,算法】
ab线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为 0 的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。下面以一元线性回归为例进行分析。yaxbabab。原创 2024-05-30 08:17:59 · 615 阅读 · 0 评论 -
NBM 算法【python,算法,机器学习】
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法。原创 2024-05-28 07:25:32 · 988 阅读 · 1 评论 -
GBDT 算法【python,机器学习,算法】
GBDT 即 Gradient Boosting Decision Tree 梯度提升树, 是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),然后把多棵决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。上面的代码演示了基学习器的数量对 GBDT 性能的影响。你可以根据实际需要对代码中的数据进行调整以适应不同的测试需要。你可以根据实际需要对代码中的数据进行调整以适应不同的测试需要。原创 2024-05-28 07:19:22 · 395 阅读 · 0 评论 -
Adaboost 算法【python,机器学习,算法】
初始化样本数据,样本数据集大小为N,每个样本的权重设置为1/N。相关公式:D1w11w12w13w14...w1i...w1Nw1iN1i1234...N其中D1表示,第一次迭代每个样本的权值。w11表示,第1次迭代时的第一个样本的权值。迭代。根据前一个分类器分类结果,对样本进行加权处理(分类正确的样本权重减小,分类错误的样本权重增加)。按照新的权重,对当前样本进行重新训练,得到一个新的弱分类器。原创 2024-05-28 07:15:41 · 930 阅读 · 0 评论 -
CART 算法【python,机器学习,算法】
CART(Classification and Regression Tree)分类回归树。使用基尼指数计算得到树的节点。基尼指数表示系统整体的不确定性,不确定性越大,基尼指数越大,所以在决策树中,将加权基尼系数最小的特征作为树的决策节点。原创 2024-05-28 07:12:39 · 1111 阅读 · 0 评论 -
C4.5算法【python,算法,机器学习】
【代码】C4.5算法【python,算法,机器学习】原创 2024-05-23 23:54:06 · 833 阅读 · 0 评论 -
id3算法【python,算法,机器学习】
【代码】id3算法【python,算法,机器学习】原创 2024-05-23 09:36:18 · 500 阅读 · 1 评论 -
随机森林【python,算法,机器学习】
上述代码仅仅使用了 6 条数据进行模型训练。进攻参考,实际应用中的数据会是大量的。构造多棵决策树,形成森林。原创 2024-05-20 20:28:20 · 235 阅读 · 0 评论 -
利用梯度下降算法求罗宾逊函数的最小值【python,算法,机器学习】
梯度下降法是一种优化算法,用于寻找函数的局部最小值。该方法的核心思想是:从函数的某个初始点出发,沿着函数梯度的反方向进行迭代搜索。函数接受初始点、学习率、最大迭代次数和容忍度作为参数,在实际应用中,你需要根据需求调整这些参数便于获得更好的结果。函数及其梯度,并实现了梯度下降法来找到函数的最小值。以下是根据上述思路提供的使用梯度下降法寻找。以下是使用梯度下降法来找。原创 2024-05-16 22:36:50 · 556 阅读 · 0 评论 -
梯度下降算法的实现【python,算法,机器学习】
上述代码中,巧妙的利用矩阵乘法规则实现了求和计算,这样使得梯度计算更加简便,最后计算得出的(\theta0, \theta1)便是所求直线的参数。然后对这个代价函数求偏导数,根据偏导公式,进行迭代计算,当梯度下降到一定程度,完成计算,获取最后的。场景是一个简单的线性回归的例子:假设现在我们有一系列的点,我们将用梯度下降法来拟合出这条直线!首先,我们需要定义一个代价函数,在此我们选用均方误差代价函数。表示实测的数据集,你可以根据实际情况进行替换。原创 2024-05-16 22:32:24 · 523 阅读 · 0 评论 -
K-means 算法【python,算法,机器学习】
表示有 3 个簇,样本数据的第一个点距离这三个质点的距离分别为 1、2、3,第二个点距离三个质点的距离分别为 2、3、1,后边的数据依次类推。K-means 算法试图将数据集中的样本划分为若干个子集,每个子集称为一个簇,通过该算法使得每个聚类内的数据点尽可能相似(即距离该聚类的中心点最近),而不同聚类之间的数据点尽可能不相似。需要注意的是,K-means 算法虽然有效,但是容易受到初始簇质心的情况而影响,有可能陷入局部最优解。根据质心点循环进行计算分类。当质心点不发生变化时,结束循环,返回最终的质心点。原创 2024-05-15 06:46:27 · 474 阅读 · 0 评论