机器学习

最新推荐文章于 2023-02-23 14:41:40 发布

齐风

最新推荐文章于 2023-02-23 14:41:40 发布

阅读量390

点赞数

分类专栏：数据挖掘文章标签：机器学习

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习是模拟人类的学习方法来解决计算机获取知识问题的方法。通过对大量的实例进行训练、从中发现经验化规律的过程。
机器最擅长的是学习概念，概念是具有某些共同特征的对象，符号或事件的集合。可分为传统角度、概率角度、样本角度。
传统角度：概念被非常明确的定义，无歧义。
概率角度：没有明确的定义，提供了一个判断的参考。
样本角度：将某个概念组成一个集合，将新实例与该集合进行比对，得出结果。
机器学习分为两大类：有指导（监督）的学习和无指导（监督）的聚类。有指导的学习就是归纳的学习，通过对大量已知分类或输出结果的实例进行训练，建立分类或预测模型，用来分类未知实例或预测输出结果的未来值。
归纳学习：决策树经典算法C4.5。取一些特征明显的元素进行决策树判断，翻译为一个产生式规则集合，用其他元素进行检测。
聚类学习：在学习训练之前，没有预先定义好分类的实例，数据实例按照某种相似性度量方法，计算实例之间的相似程度，将最为相似的实例聚类在一个组——簇中，再解释和理解每个簇的含义，从中发现聚类的意义。聚类算法：K-means(k-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。
数据挖掘过程：准备数据（传统数据库、数据仓库、平面文件）、挖掘数据（1、判断学习是有指导的还是无指导的；2、数据集中的哪些实例和属性提交给数据挖掘工具、哪些数据实例作为训练数据、哪些数据实例作为检验数据；3、如何设置数据挖掘算法的参数）、解释和评估数据。
数据挖掘技术：神经网络和回归分析，关联分析和聚类技术。
神经网络表现为多种形状和格式，可以建立有指导的学习模型和无指导的聚类模型。
神经网络的输入属性必须是数值类型的，输出属性则可以是数值类型的也可以是分类类型的。