笔记
weixin_45958364
这个作者很懒,什么都没留下…
展开
-
k近邻
KNN是一种分类和回归算法,在分类问题的KNN中,以训练集样本来划分特征向量空间,根据目标样本在特征空间相邻最近的k个点的类别,以多数表决的方式来判断目标样本的类别。KNN模型的三要素:距离度量、K值选择、分类决策规则。距离度量常用的距离度量是欧式距离和更一般的lp距离K值选择k值过大,模型更简单,估计误差小,近似误差大。k值过小,模型更复杂,有过拟合风险,估计误差大,近似误差小。通常采用交叉验证选择最优的k值。分类决策规则常用的是多数表决,对应经验风险最小化。构造kd树k近邻模型的实现主原创 2021-10-16 16:22:14 · 66 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯是基于贝叶斯定理和特征条件独立性假设的分类模型。朴素贝叶斯是生成模型,对于给定的训练数据,生成方法基于条件独立性假设学习联合概率分布P(X,Y),然后求后验概率P(Y|X)。联合概率分布由训练数据的先验概率和条件概率得到:P(X,Y)=P(Y)P(X,Y)X是训练数据中样本的特征向量,Y是分类标签...原创 2021-09-28 18:20:20 · 86 阅读 · 0 评论 -
Bagging和随机森林
BaggingBagging是为了得到泛化性能强的集成,应使集成中的个体学习器尽可能相互独立,同时保证每个基学习器的效果也比较好,为达到这种目的使用自助采样法。自助采样法是给定包含m个样本的初始数据集,有放回的选取m个样本作为采样集。初始数据集中有63.2%的样本出现在采样集中。每个基学习器的训练样本均为从初始数据集中抽取的包含m个样本的采样集,再将这些基学习器结合。Bagging能不经修改的用于二分类、多分类、回归自助采样方法使得基学习器只使用了初始训练集的63.2%的样本,其他的包外样本可用作原创 2021-09-27 16:53:50 · 142 阅读 · 0 评论 -
决策树
决策树决策树是基于树结构的分类模型,决策树的生成是一个递归过程。信息熵信息熵是度量样本集合纯度的指标,信息熵越小,纯度越高。假定样本集合D的第k类样本所占比例为p,信息熵定义为决策树的关键是如何选择最优划分属性,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能处于同一类别,即节点的纯度越来越高,熵越来越小。使用决策树进行特征选择的几个方法:信息增益,ID3算法(迭代二分器);增益率,C4.5算法;基尼指数,CART算法(分类和回归树)信息增益信息增益描述了样本的不同特征对原创 2021-09-27 15:59:26 · 139 阅读 · 0 评论 -
逻辑回归
逻辑回归逻辑回归是分类模型,对于二分类模型来说,类别标签为原创 2021-09-18 23:54:04 · 375 阅读 · 0 评论 -
线性回归
Linear Regression单变量线性回归代价函数根据线性回归函数与数据节点的拟合效果,函数经过越多的数据点,与数据点的距离越小,模型的拟合效果越好。根据最小二乘法计算预测值与实际值之间的误差平方和,定义代价函数:(设定样本数为m,第i个样本)寻找最优的参数,使代价函数J最小化。梯度下降梯度下降法通过迭代更新参数,不断趋近代价函数的全局最小或局部最小。(参数需要同步更新)线性回归的梯度下降这种方法也叫做批量梯度下降(Batch 梯度下降),会读取全部数据集,不适原创 2021-09-13 15:29:16 · 36 阅读 · 0 评论