术语
数据集
敏感样本
在机器学习中,**敏感样本(Sensitive Samples)**通常指的是那些对于模型预测结果具有特殊重要性或影响的样本。这些样本可能包含某些关键信息或特征,使得模型在处理这些样本时表现出与处理其他样本不同的行为或性能。
在分类问题中,敏感样本可能包括:
- 边界样本(Boundary Samples):这些样本位于不同类别的边界上,对于确定分类边界具有重要影响。模型在处理这些样本时的表现往往决定了其整体性能。
- 稀有样本(Rare Samples):在某些类别中数量较少的样本,由于数量有限,模型可能难以从这些样本中学习到足够的信息。因此,这些样本对于模型的性能提升具有关键作用。
- 误分类样本(Misclassified Samples):被模型错误分类的样本,这些样本对于分析模型的错误原因和改进模型具有重要价值。
-
决策树中的静态参数
- 在决策树模型中,静态参数通常指的是在模型训练过程中不会改变的参数,或者是在特定上下文中被视为不变的参数。然而,需要注意的是,决策树模型的参数通常是根据数据集和训练目标进行动态调整的,以便优化模型的性能。
- 如max_depth(最大深度)、min_samples_split(内部节点再划分所需最小样本数)、min_samples_leaf(叶子节点最少样本数)等。
贝叶斯优化中的Search Range
在贝叶斯优化(Bayesian Optimization)中,search range(搜索范围)是指优化过程中考虑的参数(或超参数)的可能取值范围。这个范围定义了算法在搜索最佳参数值时应该考虑的参数空间。
在贝叶斯优化中,通常有一个目标函数,该函数可能难以评估(例如,因为它需要很长时间来运行,或者因为它是随机或噪声的)。贝叶斯优化通过建立一个关于目标函数的概率模型来尝试找到最小化或最大化该函数的参数值。这个概率模型会考虑之前对目标函数的评估结果,并试图预测在哪些参数值上可能会得到更好的结果。
search range 的设定对于贝叶斯优化的性能至关重要。如果范围设置得太窄,算法可能无法找到全局最优解,因为它只能在有限的参数空间内进行搜索。如果范围设置得太宽,算法可能需要更多的迭代次数来找到好的参数值,因为它需要在更大的空间中探索。
技术、算法、架构
Bagging
Bagging(Bootstrap Aggregating)是一种集成学习技术,用于提高机器学习算法的稳定性和准确性。它通过并行地训练多个基学习器(如决策树、神经网络等),然后结合这些基学习器的预测结果来产生最终的预测。Bagging 的主要特点是并行化和自助采样法(Bootstrap Sampling)。
以下是 Bagging 的主要步骤:
- 自助采样法:对于包含 m 个样本的原始训练集,Bagging 采用自助采样法(bootstrap sampling),即有放回地随机抽取 m 个样本作为训练子集,并进行 T 次,每次产生一个新的训练子集和一个对应的基学习器。
- 训练基学习器:利用这些自助采样产生的训练子集来训练基学习器,如决策树、神经网络等。由于是有放回的采样,因此一些样本可能会在多个训练子集中出现,而另一些样本可能一次都不出现。
- 结合预测:对于分类问题,Bagging 通常采用简单投票法来结合多个基学习器的预测结果,即选择票数最多的类别作为最终的预测结果。对于回归问题,则通常采用简单平均法或加权平均法来结合预测结果。
Bagging 的主要优点包括:
- 能够减少模型的方差,提高模型的稳定性。
- 由于是并行化训练,因此可以充分利用计算资源,提高训练速度。
- 适用于各种基学习器,包括决策树、神经网络等。
需要注意的是,Bagging 对于易受样本扰动影响的基学习器(如决策树、神经网络等)效果尤为显著,而对于那些对样本扰动不敏感的基学习器(如线性回归、支持向量机等),使用 Bagging 往往不会带来太大的提升。
极端随机树
极端随机树(Extreme Randomized Trees,简称ERT)是一种集成机器学习算法,结合了极端随机化和决策树的特点。具体来说,极端随机树是一个决策树的集成学习方法,与其他决策树集成算法如bagging和随机森林相关。但与常规随机森林相比,极端随机树在每次分裂或分枝时都会随机选择一个特征子集进行分枝特征的选择,而且它不需要选择最佳阈值,而是采用随机阈值进行分枝。
这种方法可以减少模型的方差,提高模型的鲁棒性。极端随机树在解决分类和回归问题时表现出色,具有高效、准确和鲁棒的特点。
极端随机化
极端随机化(Extremely Randomized Trees) 是一种用于构建决策树集成模型(如随机森林)的随机化方法。与传统的随机森林方法相比,极端随机化在树的生长过程中采用了更加激进的随机化策略。
具体来说,极端随机化主要体现在两个方面:
-
特征选择的随机性:在构建决策树的每个节点时,传统随机森林会从所有特征中随机选择一个特征子集,然后从这个子集中选择最佳的特征来进行分裂。而极端随机化则是在选择特征子集后,不再计算该子集中每个特征的信息增益或基尼不纯度等指标来找到最佳分裂点,而是随机选择一个特征及其阈值来分裂节点。这种随机性进一步增加了模型的多样性,有助于减少过拟合。
-
分割点的随机性:对于选定的随机特征,极端随机化不会寻找最佳分割点(如信息增益最大的点),而是随机选择一个分割点。这使得模型的构建过程更加迅速,并且由于引入了更多的随机性,进一步增加了模型的泛化能力。
鲁棒分裂和非鲁棒分裂
ERT中,分裂过程(即决策树中的节点分裂)对于算法的性能和鲁棒性(Robustness)至关重要。鲁棒分裂和非鲁棒分裂是描述这种分裂过程性质的两种对立方式。
-
鲁棒分裂(Robust Splitting):
- 在ERT中,鲁棒分裂指的是分裂过程对于数据中噪声和异常值的敏感性较低,即使数据中存在这些干扰因素,也能产生稳定的分裂结果。
- ERT在分裂时引入了更多的随机性,这种随机性使得模型对噪声和异常值具有更强的抵抗能力,从而提高了算法的鲁棒性。
- 鲁棒分裂有助于ERT在复杂或嘈杂的数据集上实现更好的性能,因为它能够减少过拟合的风险,并提高模型的泛化能力。
-
非鲁棒分裂(Non-Robust Splitting):
- 相比之下,非鲁棒分裂指的是分裂过程对数据中的噪声和异常值较为敏感,容易受到这些干扰因素的影响。
- 在没有足够随机性或正则化的情况下,决策树可能会过度拟合训练数据中的噪声和异常值,导致在测试集或新数据上表现不佳。
- 非鲁棒分裂可能会导致模型在复杂或嘈杂的数据集上出现过拟合现象,从而降低其泛化能力和实用性。