机器学习应用系统设计 第二章

第二章 机器学习的用途

2.1 算法选择

机器学习算法分类
类别特点
分类利用正确解答的离散类别与输入数据的组合进行学习,预测未知数据的类别。
回归利用正确解答的数值与输入数据的组合进行学习,从未知数据预测连续值
聚类以某种基准对数据进行分组
降维将高维数据映射为低维数据以便可视化或减少计算量。
其他

推荐:提示用户喜欢的武平或者正浏览物类似的物品

异常检测:检测出可疑访问等异常行为

高频模式挖掘:抽取出数据中高频出现的模式。

强化学习:围棋或者日本象棋中局部解决策略不明确的环境下,学习应采取的行动方针

选取的基准在于学习的数据量大小,预测对象是否是离散的类别,正确答案标识是否存在等。

2.2 分类

监督学习方法,用于预测电子邮件是否是垃圾邮件,图像中存在的是什么物体。

常见分类算法
算法类别
感知机
逻辑回归
SVM
神经网络
K-NN
决策树
随机森林
GBDT

下面是对算法的特点、决策边界、算法结构进行介绍

各类算法
算法名称算法特点决策边界算法结构
感知机

1.在线学习

2.预测性能一般,但学习效率高

3.易导致过拟合

4.只能解决线性可分解问题

决策边界是直线目标函数=所有数据的损失函数总和。
逻辑回归

1.除了输出以外,还给出输出类别的概率值

2.既可以在线学习也可以批量学习

3.预测性能一般,学习速度快

4.为防止过拟合,增加了正则化项

决策边界是直线

目标函数=所有数据损失函数总和+正则化项

激活函数Sigmoid函数。

SVM

1.可以通过间隔最大化,学习光滑的超平面

2.使用被称为核的函数,能够分类非线性数据

3.如果是线性核,即使高维稀疏数据也能进行学习

4即可批量学习也可以在线学习

边界边界既可以直线也可以是曲线

1.间隔最大化

2.核函数方法

神经网络

1可以分离非线性数据.

2.学习费时

3.参数多,容易过拟合

4依赖权重初值,容易陷入局部最优解

决策边界既可以直线也可以是曲线softmax
K-NN

1.逐个数据进行学习

2.预测计算费时间

3与K有关,预测性能还可以

决策边界光滑 
决策树

1.人容易理解

2.不需要对数据进行正则化处理

3.可以内部处理残缺值

4.特定条件下容易过拟合

5.可以解决非线性分离,不擅长解决线性分离

6.数据微小变化容易导致结果显著改变。

7.预测性能一般。

8.只能批量学习。

不是直线根据训练数据确定条件式

2.3回归

各类回归算法
算法名称简单介绍
线性回归用直线,多项式回归用曲线来近似数据
Lasso回归以学习权重的绝对值作为正则化项,岭回归以学习权重的二次方作为正则化项
回归树基于决策树的回归,对非线性数据进行拟合
SVM回归基于SVM的回归,对非线性数据进行拟合

 

目标数据=所有数据的损失函数总和;

损失函数采用二次方差。

 

2.4聚类与降维

2.4.1 聚类

聚类是一种无监督学习方法,主要用于把我数据的趋势,主要为层次聚类、K-means方法。

2.4.2 降维

降维是指将高维数据在尽可能保存信息的条件下转化为地位数据。

2.5 其他

2.5.1推荐

2.5.2异常检测

2.5.3频繁模式挖掘

2.5.4强化学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南楚巫妖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值