机器学习(一)

本文介绍了机器学习的基础知识,包括经验与数据的关系、学习算法、数据集、模型空间和评估方法。讨论了错误率、精度、过拟合与欠拟合,以及线性模型和决策树。同时,提到了神经网络的构成和学习过程,如感知机、多层前馈神经网络及BP算法,还探讨了全局最小和局部最小解的问题。
摘要由CSDN通过智能技术生成

一、绪论

机器学习:基于经验做出预测。主要内容是从数据中产生“模型”的算法,即“学习算法”。

经验:经验通常以数据形式存在

(色泽=青绿;根蒂=蜷缩;敲声=浊响

   色泽=乌黑;根蒂=稍蜷;敲声=沉闷

   色泽=浅白;根蒂=硬挺;敲声=清脆)

数据集:一组记录的集合

示例(样本):每条记录

属性:(色泽;根蒂;敲声)

属性值:(青绿;蜷缩;浊响)

属性空间(样本空间,输入空间):属性张成的空间

特征向量:示例在属性空间对应的坐标向量

维数:每个示例属性的数量

学习(训练):从数据中学的模型 

训练数据:训练中使用的数据

训练样本:训练中使用的每个样本

训练集:训练样本组成的集合

假设:学得模型对应关于数据的某种潜在的规律

标记:训练样本结果信息

样例:拥有标记的示例

分类:预测任务为离散值,例如”好瓜“”坏瓜“

回归:预测任务为连续值

测试:使用模型进行预测的过程

聚类:按照属性值将示例分组

 泛化:学得模型适用于新样本的能力

假设样本空间中全体样本服从一个未知的”分布“D,我们获得的每个样本都是独立的从这个分布上采样获取的,即”独立同分布“,训练样本越多,D信息越多,越有可能通过学习获得具有强泛化能力的模型。

归纳:从具体的事实归接触一般性规律

演绎:从一般到特殊的”特化“过程

归纳偏好:机器学习算法在学习过程中对某类假设的偏好

假设空间:将所有假设组成的空间

版本空间:与训练集一致的”假设空间“

二、模型空间

错误率:分类错误的样本数占样本总数的比例

精度:1-错误率

误差(分为训练误差和泛化误差):学习器的实际预测输出与样本的真实输出的差异

过拟合:把训练样本自身的特点当成所有潜在样本的特点,导致泛化性能下降。

欠拟合:指队训练样本的一般性质未学好

评估

测试集:测试学习器对新样本的判别能力。以测试集的”测试误差“作为泛化误差近似。(测试集尽量与训练集互斥)

产生训练集和测试集的方法:

1.留出法

直接将数据集华为两个互斥的集合,训练集S,测试集T

(一般采用若干次随即划分、重复进行实验取平均值作为结果)

2.交叉验证法

将数据集分为k个大小相似的互斥子集(每个子集尽量保持数据分布一致性,分层采样),每次利用k-1个训练集,一个作为训练集,最终返回k次实验的均值。

(若k=m,留一法)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值