机器学习应用系统设计第二章

最新推荐文章于 2021-08-07 23:40:36 发布

南楚巫妖

最新推荐文章于 2021-08-07 23:40:36 发布

阅读量229

点赞数

分类专栏：机器学习方法文章标签：机器学习应用系统设计

本文链接：https://blog.csdn.net/yingdajun/article/details/103147178

版权

机器学习方法专栏收录该内容

26 篇文章 1 订阅

订阅专栏

第二章机器学习的用途

2.1 算法选择

机器学习算法分类
类别	特点
分类	利用正确解答的离散类别与输入数据的组合进行学习，预测未知数据的类别。
回归	利用正确解答的数值与输入数据的组合进行学习，从未知数据预测连续值
聚类	以某种基准对数据进行分组
降维	将高维数据映射为低维数据以便可视化或减少计算量。
其他	推荐：提示用户喜欢的武平或者正浏览物类似的物品异常检测：检测出可疑访问等异常行为高频模式挖掘：抽取出数据中高频出现的模式。强化学习：围棋或者日本象棋中局部解决策略不明确的环境下，学习应采取的行动方针

选取的基准在于学习的数据量大小，预测对象是否是离散的类别，正确答案标识是否存在等。

2.2 分类

监督学习方法，用于预测电子邮件是否是垃圾邮件，图像中存在的是什么物体。

常见分类算法
算法类别
感知机
逻辑回归
SVM
神经网络
K-NN
决策树
随机森林
GBDT

下面是对算法的特点、决策边界、算法结构进行介绍

各类算法
算法名称	算法特点	决策边界	算法结构
感知机	1.在线学习 2.预测性能一般，但学习效率高 3.易导致过拟合 4.只能解决线性可分解问题	决策边界是直线	目标函数=所有数据的损失函数总和。
逻辑回归	1.除了输出以外，还给出输出类别的概率值 2.既可以在线学习也可以批量学习 3.预测性能一般，学习速度快 4.为防止过拟合，增加了正则化项	决策边界是直线	目标函数=所有数据损失函数总和+正则化项激活函数Sigmoid函数。
SVM	1.可以通过间隔最大化，学习光滑的超平面 2.使用被称为核的函数，能够分类非线性数据 3.如果是线性核，即使高维稀疏数据也能进行学习 4即可批量学习也可以在线学习	边界边界既可以直线也可以是曲线	1.间隔最大化 2.核函数方法
神经网络	1可以分离非线性数据. 2.学习费时 3.参数多，容易过拟合 4依赖权重初值，容易陷入局部最优解	决策边界既可以直线也可以是曲线	softmax
K-NN	1.逐个数据进行学习 2.预测计算费时间 3与K有关，预测性能还可以	决策边界光滑
决策树	1.人容易理解 2.不需要对数据进行正则化处理 3.可以内部处理残缺值 4.特定条件下容易过拟合 5.可以解决非线性分离，不擅长解决线性分离 6.数据微小变化容易导致结果显著改变。 7.预测性能一般。 8.只能批量学习。	不是直线	根据训练数据确定条件式

2.3回归

各类回归算法
算法名称	简单介绍
线性回归	用直线，多项式回归用曲线来近似数据
Lasso回归	以学习权重的绝对值作为正则化项，岭回归以学习权重的二次方作为正则化项
回归树	基于决策树的回归，对非线性数据进行拟合
SVM回归	基于SVM的回归，对非线性数据进行拟合

目标数据=所有数据的损失函数总和；

损失函数采用二次方差。

2.4聚类与降维

2.4.1 聚类

聚类是一种无监督学习方法，主要用于把我数据的趋势，主要为层次聚类、K-means方法。

2.4.2 降维

降维是指将高维数据在尽可能保存信息的条件下转化为地位数据。

2.5 其他

2.5.1推荐

2.5.2异常检测

2.5.3频繁模式挖掘

2.5.4强化学习