月白v-CSDN博客

原创集成学习：通过简单例子演示推导SAMME算法

SAMME（Stagewise Additive Modeling using a Multiclass Exponential loss function）是对Adaboost的一种扩展，用于处理多分类问题。Adaboost本身主要用于二分类问题，而SAMME通过调整弱分类器的权重计算和最终的分类组合方式，使得它可以应用于多类别任务。SAMME算法由 Zhu 等人在 2009 年提出，它将 Adaboost 的二分类框架扩展到多分类的情境，目标是最小化多分类指数损失函数。

2024-12-22 19:21:55 673 1

原创无痛理解Adaboost算法——从形象解释到数学推导

其核心思想是：通过组合多个弱学习器（weak learners），逐步提升模型的预测性能，将一个弱分类器提升为强分类器。Adaboost是一种基于Boosting思想的强大算法，通过逐步优化弱分类器，形成强分类器。每一轮中，Adaboost会根据前一轮的错误率自适应地调整样本权重，让后续的学习器更多关注被前一轮错误分类的样本。开始时，我们有100个水果样本，每个样本的重要性是相等的（都是1/100）。若弱分类器的错误率等于或高于 0.5，则它的分类能力与随机猜测相当，此时算法无法继续进行。

2024-12-22 18:30:34 936

原创集成学习：通过重抽样自举法引入袋装法

重抽样自举法，通过在样本上进行有放回的抽样，近似估计总体的分布和统计量的性质。自举法的核心思想是用样本代替总体，通过在样本上进行多次有放回的随机抽样来模拟从总体中抽样的过程。它通过对数据进行有放回的随机抽样，构造多个样本集，从而进行统计量的估计和置信区间的计算。，通过对数据集进行随机重抽样并构建多个基学习器，然后将这些学习器的预测结果进行组合（如平均或投票），从而获得更稳定和准确的预测。（基学习器的数量）并降低基学习器之间的协方差，袋装法可以显著降低方差，从而提高模型的稳定性。

2024-12-22 17:20:30 703

原创集成学习概述

集成学习（Ensemble Learning）是一种机器学习方法，它通过结合多个基学习器（Base Learner）的预测结果，来提升模型的整体性能。集成学习通过整合多个基学习器的预测结果，提升模型的性能和鲁棒性。集成学习的效果依赖于基学习器之间的差异性（多样性）。因此，提升基学习器的多样性是集成学习的关键策略之一。串行方法的基学习器间存在依赖关系，后续学习器利用前一个学习器的错误进行改进，主要目的是降低偏差。集成学习通过适当的规则将多个基学习器的预测结果进行组合。多样性是集成学习成功的关键。

2024-12-22 14:28:58 548

原创信息熵、信息增益与基尼系数的基本概念及其衡量数据集纯度的原理

信息熵是衡量数据集纯度或不确定性的重要指标，是基于信息论提出的概念，描述了一个系统的混乱程度或随机性。信息增益衡量的是通过某个特征对数据集进行划分后，数据纯度的提升程度。它是决策树划分特征的关键指标之一。基尼系数是另一个衡量数据集纯度的指标，主要用于 CART（分类回归树）算法中。因此，基尼系数越小，数据集的纯度越高。这表明信息熵越高，数据集越不纯。类样本数占总样本数的比例）。的权重（占总数据集的比例）。有效地降低了数据的不确定性。

2024-12-22 13:14:54 1220

原创贝叶斯分类器的数学推导和直观理解

贝叶斯分类器的直观理解与数学推导

2024-12-22 11:49:52 979

原创主观贝叶斯方法

主观贝叶斯方法讲解

2024-12-21 16:09:06 455

原创决策树算法数学推导

主要从数学推导的角度详细讲解决策树算法的整体原理和流程。

2024-12-20 17:07:44 1913

原创决策树中的 ID3 算法、CART 树以及 CART 树的生长与剪枝。

剪枝的基本思想是移除一些子树，使得树的结构更简单。计算如果将该节点的所有子树都剪掉，只保留该节点作为一个叶子节点，带来的代价函数的增益。决策树中的 ID3 算法、CART 树以及 CART 树的生长与剪枝。每次选择能够使划分后的均方误差下降最多的特征及其划分点进行划分。进行划分所获得的“信息量”越多，数据集纯度的提升越大。，然后使用独立的验证集，通过交叉验证的方法选择最优的。为根节点的子树后，单位叶节点减少带来的代价降低量。的值，并剪掉相应的子树，直到根节点。为根节点的子树，得到一个新的子树。

2024-12-20 16:58:14 1846

原创随机森林算法的数学推导

想象一下，如果我们在所有决策树的每个节点划分时都使用相同的最优特征，那么这些决策树的结构会非常相似，预测结果也会高度相关。通过随机选择一部分特征，我们可以让不同的决策树在不同的特征子空间上进行学习，从而增加它们之间的差异性。决策树的核心思想是通过一系列的 if-then-else 规则将数据逐步划分到不同的子集，直到每个子集中的样本属于同一类别（或具有相似的输出值）。对于一个新的输入样本，每棵决策树都会给出一个类别预测，最终的预测结果是所有决策树预测结果中出现次数最多的类别。个独立的、同分布的随机变量。

2024-12-20 16:26:35 1897

原创感知机的权重更新过程

如果数据线性不可分，感知机无法找到合适的超平面，可能陷入无限循环（通常通过设置最大迭代次数来停止）。如果数据是线性可分的，感知机算法在有限次更新后一定会收敛，找到一个能够正确分类所有样本的超平面。控制更新的步长，较大的学习率可能导致训练不稳定，而较小的学习率会使训练变慢。这种逐步调整的过程，最终会将决策边界调整到能够正确分类所有训练样本的位置。通过这个过程，感知机不断学习，从初始的随机状态最终变得能够区分数据的类别。下面详细讲解感知机的权重训练过程。：通过训练，使模型能够正确分类训练数据，找到合适的。

2024-12-20 14:23:07 2153

原创机器学习笔记：模型的评估与选择

详细讲解机器学习中模型的评估和选择部分

2024-12-20 14:15:18 384

原创 FOLLOW集构建

FOLLOW集的作用：想象你在阅读一个句子，当你遇到一个可能结束的位置时，你需要决定是否真的结束了。比如在编程语言中，当你看到一个表达式时，你需要知道什么符号可以合法地出现在它后面（比如分号、右括号等）。FOLLOW集就是帮助我们做这个决定的。FOLLOW集的基本概念：对于一个非终结符A，FOLLOW(A)是指在所有句型中，紧跟在A后面的终结符的集合。FOLLOW集在处理产生式中的空串（ε）时特别重要。FOLLOW集的概念和作用，就像解释FIRST集一样，我们通过实例来理解。

2024-12-19 22:58:57 429