学习机器学习之如何根据需求选择一种算法

第 1 步:对问题进行分类
这是一个两步步骤:

  1. 通过输入分类:如果我们有标签数据,这是一个监督学习问题。如果我们有无标签数据并且想要去发现结构,这是一个无监督学习问题。如果我们想要通过与环境交互优化目标函数,这是一个强化学习问题。

  2. 通过输出分类:如果一个模型的输出是一个数字,这是一个回归问题。如果模型的输出是一个类(或者分类),这是一个分类问题。如果模型的输出是输入组的集合,这是一个分类问题。

第2步:找到可用的算法
分类:支持向量机(SVM),人工神经网络,逻辑回归,决策树和随机树。
回归:线性回归,贝叶斯线性回归,决策树回归
聚合(Clustering):层次聚类,k- 均值聚类
异常检测(还是属于分类或回归问题):K 最近邻(对象通过其 k 最近邻的多数投票来分类。 k-NN 回归中,输出为对象的属性值。该值为其 k 最近邻值的平均值),单类支持向量机

第3步:实现所有适用的算法
我们希望通过最小化特征工程快速而简单地完成几种算法的实现。在这个阶段,我们主要兴趣在粗略来看那个算法表现更好。

第4步:特征工程
搭建特征工程,使用一组经过精心挑选的评估标准比较每个算法在数据集上的表现。
主成分分析(Principal component analysis,PCA):一种线性降维方法,可以找出包含信息量较高的特征主成分,可以解释数据中的大多数方差。
前向搜索: 最开始不选取任何特征,计算模型的交叉验证误差,然后选择最相关的特征,将这个特征加入到已有特征;重复选取其它所有候选特征直到达到期望数量的特征为止。
反向搜索: 从所有特征开始。计算模型的交叉验证误差先移除最不相关的特征,对其它所有候选特征,重复这一过程直到达到期望数量的特征为止。

第5步:超参数优化
最后,你可能想优化算法的超参数。例如,主成分分析中的主成分个数,k 近邻算法的参数 k,或者是神经网络中的层数和学习速率。最好的方法是使用交叉验证来选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值