什么是算法:算法是利用计算机解决特定问题的处理步骤,是有限操作的集合
以下是一个利用算法进行预测的实例:



常见机器学习算法分类::

有监督学习(supervised learning):利用一组已知类别的样本来训练模型,使其达到性能要求,特点为输入数据(训练数据)均有一个明确的标识或结果(标签),即我们提供样例来“教”计算机如何学习
无监督学习(unsupervised learning):从无标记的训练数据中推断结论,其特点为输入数据(训练数据)不存在明确的标识或结果(标签),常见的无监督学习为聚类,即发现隐藏的模式或者对数据进行分组,即计算机根据我们提供的材料“自动"学习,给定数据来寻找隐藏的结构或模式
有监督学习


-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------



------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


记录标识不计入决策树运算,除了是否购买电脑为因变量之外其余全是自变量,最终预测的就是是否购买电脑

比较下来,味道的信息增益最大,因此在特征选择时更多考虑味道,味道提供的有效信息会比其他特征提供的有效信息更多

根据第一级特征选择最后的信息增益可以得出,年龄的信息增益最大,因此第一级特征选择年龄


由此已经没有待处理的分支,可以生成最后的结果:

数据挖掘都有详细讲过
CART:分类回归树(二叉树)


掌握企业常见要求的几个模型即可
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
无监督学习


确定中心可以靠经验确定,或者靠其他技术手段

一轮归类之后,重新确定聚类中心并重新计算距离

如此反复进行







最终结果:


------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
其他学习算法




boost实质是加大对错判样本的权重值,随后以加大权重值的样本来进行下一轮训练

重点了解随机森林(randomforest) 可采用不同的构建决策树的方法来构建随机森林,如之前学的ID3,C4.5,C50,CART等





1926

被折叠的 条评论
为什么被折叠?



