机器学习02-分类算法

最新推荐文章于 2023-12-05 20:36:29 发布

twilight_cc

最新推荐文章于 2023-12-05 20:36:29 发布

阅读量372

点赞数 1

分类专栏：机器学习文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/weixin_43841579/article/details/102370571

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

分类算法

分类算法

MOOC大学课程商务数据分析跟学笔记

分类算法

分类算法利用训练样本集获得分类函数即分类器，从而实现将数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性与类别之间的潜在关系，并以此为依据判断新样本属于哪一类

集成学习

集成学习是用多种学习方法的组合来获取比原方法更优的方法，在集合方式上，通常采取数据样本抽样的方式训练多个模型获取综合投票结果，而不采用多个分类器训练相同数据集，因为许多分类器是线性模型，他们最终的投票并不会改进模型的预测结果。

bagging（bootstrap aggregating）

装袋法优于多次采样，每个样本被选中的概率相同，大约有1/3的噪声样本不会被训练，因此噪声数据的影响下降，因所以装袋法不太容易受到过拟合的影响

随机森林在bagging样本抽样的基础上，又增加了属性抽样，增强了样本点随机性，使得整个模型的随机性更强。

boosting

提升法与装袋法相比每次的训练样本均为同一组，并且引入了权重的概念，给每个单独的训练样本都会分配相同的初始权重，然后在多轮训练过程中，对分错的样本权重增加，从而改变样本分布的目的，同时有加速的概念。

Adaboost、GBDT与XGboost

Adaboost:adaptive boosting，根据前一次的训练结果自适应的更新样本权重。第一次训练时，每个样本权重相同，为1/N，后面迭代时，根据上一次训练结果，增加分错样本的权重，减少分对样本的权重，然后再对所有样本进行训练。
GBDT 梯度提升决策树
决策树分为分类树与回归树，分类树的结果不能进行加减运算，回归树的结果是数值，可以进行加减运算，GBDT中的决策树是回归树，损失函数：均方差
如何在不改变原有模型的结构的基础上提升模型的拟合能力？
增加一个新的模型，拟合其残差
思路：利用梯度下降，用损失函数的负梯度在当前模型的值，作为提升树中残差的近似值来拟合回归树
加法模型

#GBDT XGBOOST示例
import pandas as pd
import xgboost as xgb
df = pd.DataFrame({'x':[1,2,3],'y':[10,20,30]})
x_train = df.drop('y',axis=1)
y_train = df['y']

t_train = xgb.DMatrix(x_train,y_train)
params = {"objective":"reg:linear","booster":"gblinear"}
gbm = xgb.train(dtrain=t_train,params=params)
y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]})))
print(y_pred)
# output:[32.79174 38.75454]

GBDT特点：超参比较多，可用交叉验证的方法选择最佳参数；非线性变换比较多，表达能力强，不需要做复杂的特征工程和特征变换；Boost是串行过程，难以并行化，计算复杂度高，不适合高维稀疏特征；样本中异常值较多时，可将平方损失用绝对损失或Huber损失代替

XGboost
XGBoost的boosting策略则与GBDT类似，主要的原理区别是损失函数的不同，GBDT采用梯度下降法，为泰勒公式的一阶展开，通过生成拟合残差的决策树来进行boosting,xgboost的损失函数如下：

采用了泰勒公式的二阶展开，并且增加了正则化项，增强了模型的泛化能力；此外在工程上的优化有：支持列抽样，支持特征粒度并行
Adaboost、GBDT与XGboost详细参考资料
 GBDT与XGboost的区别

支持向量机

SVM属于有监督学习模型，常用于解决数据分类问题，主要用于二元分类问题
原理
支持向量机在高维空间中构造超平面或超平面集合，将原有限维空间映射到维数更高的空间中，在该空间中进行分离可能会更容易。它可以同时最小化经验误差和最大化集合边缘区，因此也被称为最大间隔分类器

函数间隔:可以表示分类预测的正确性及确信度，支持向量机的学习策略就是分类间隔最大化

线性可分支持向量机(硬间隔)->线性支持向量机(软间隔)->非线性支持向量机(核函数)

原理：
分类超平面 $w x + b = 0$
判别函数 $y_i = sgn(wx_i+b)$
最大间隔问题，在间隔固定为1时，寻找最小的||w||

优化问题： $min\frac{1}{2}||w||^2$
$y_i(wx_i+b)-1\geq0$
在这里插入图片描述
优化问题引入拉格朗日函数：
$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^n\alpha_i(y_i(wx_i+b)-1)$
$\alpha_i$ 为拉格朗日乘子