第二章 机器学习的用途
2.1 算法选择
类别 | 特点 |
分类 | 利用正确解答的离散类别与输入数据的组合进行学习,预测未知数据的类别。 |
回归 | 利用正确解答的数值与输入数据的组合进行学习,从未知数据预测连续值 |
聚类 | 以某种基准对数据进行分组 |
降维 | 将高维数据映射为低维数据以便可视化或减少计算量。 |
其他 | 推荐:提示用户喜欢的武平或者正浏览物类似的物品 异常检测:检测出可疑访问等异常行为 高频模式挖掘:抽取出数据中高频出现的模式。 强化学习:围棋或者日本象棋中局部解决策略不明确的环境下,学习应采取的行动方针 |
选取的基准在于学习的数据量大小,预测对象是否是离散的类别,正确答案标识是否存在等。
2.2 分类
监督学习方法,用于预测电子邮件是否是垃圾邮件,图像中存在的是什么物体。
算法类别 |
感知机 |
逻辑回归 |
SVM |
神经网络 |
K-NN |
决策树 |
随机森林 |
GBDT |
下面是对算法的特点、决策边界、算法结构进行介绍
算法名称 | 算法特点 | 决策边界 | 算法结构 |
感知机 | 1.在线学习 2.预测性能一般,但学习效率高 3.易导致过拟合 4.只能解决线性可分解问题 | 决策边界是直线 | 目标函数=所有数据的损失函数总和。 |
逻辑回归 | 1.除了输出以外,还给出输出类别的概率值 2.既可以在线学习也可以批量学习 3.预测性能一般,学习速度快 4.为防止过拟合,增加了正则化项 | 决策边界是直线 | 目标函数=所有数据损失函数总和+正则化项 激活函数Sigmoid函数。 |
SVM | 1.可以通过间隔最大化,学习光滑的超平面 2.使用被称为核的函数,能够分类非线性数据 3.如果是线性核,即使高维稀疏数据也能进行学习 4即可批量学习也可以在线学习 | 边界边界既可以直线也可以是曲线 | 1.间隔最大化 2.核函数方法 |
神经网络 | 1可以分离非线性数据. 2.学习费时 3.参数多,容易过拟合 4依赖权重初值,容易陷入局部最优解 | 决策边界既可以直线也可以是曲线 | softmax |
K-NN | 1.逐个数据进行学习 2.预测计算费时间 3与K有关,预测性能还可以 | 决策边界光滑 | |
决策树 | 1.人容易理解 2.不需要对数据进行正则化处理 3.可以内部处理残缺值 4.特定条件下容易过拟合 5.可以解决非线性分离,不擅长解决线性分离 6.数据微小变化容易导致结果显著改变。 7.预测性能一般。 8.只能批量学习。 | 不是直线 | 根据训练数据确定条件式 |
2.3回归
算法名称 | 简单介绍 |
线性回归 | 用直线,多项式回归用曲线来近似数据 |
Lasso回归 | 以学习权重的绝对值作为正则化项,岭回归以学习权重的二次方作为正则化项 |
回归树 | 基于决策树的回归,对非线性数据进行拟合 |
SVM回归 | 基于SVM的回归,对非线性数据进行拟合 |
目标数据=所有数据的损失函数总和;
损失函数采用二次方差。
2.4聚类与降维
2.4.1 聚类
聚类是一种无监督学习方法,主要用于把我数据的趋势,主要为层次聚类、K-means方法。
2.4.2 降维
降维是指将高维数据在尽可能保存信息的条件下转化为地位数据。
2.5 其他
2.5.1推荐
2.5.2异常检测
2.5.3频繁模式挖掘
2.5.4强化学习