ML001 机器学习预备知识

一、关键术语与任务类型

(一)数据集(data set)

  • 样本(sample)/实例(instance):数据集中的记录
  • 特征(feature)/属性(attribute):影响结果的因素
  • 数据量(data size):样本的数量
  • 特征维度(feature dimension):特征的数量
  • 训练集(train set)、测试集(test set)

(二)机器学习内容框架

1、监督学习(supervised learning)

  • 分类问题(classification):预测的目标变量是离散值
  • 回归问题 (regression):预测目标为连续值

2、无监督学习(unsupervised learning)

  • 概念:无标签情形下的机器学习
    聚类分析(clustering):仅根据输入特征进行潜在的概念分类

二、机器学习三要素

机器学习是机器学习模型在一定的优化策略下使用相应求解算法来达到最优目标的过程

(一)模型(model)

模型是要学习的决策函数或者条件概率分布

假设空间 F \mathscr{F} F

  • 一般用假设空间(hypothesis space)来描述所有可能的决策函数或条件概率分布
    • 当模型是决策函数时(如线性模型的线性决策函数), F \mathscr{F} F可以表示为若干决策函数的集合
      F = { f ∣ Y = f ( X ) } \mathscr{F}=\{f|Y=f(X)\} F={fY=f(X)}
    • 当模型是一个条件概率分布时, F \mathscr{F} F可以表示为条件概率分布的集合
      • 如决策树定义在特征空间和类空间中的条件概率分布
        F = { P ∣ P ( Y ∣ X ) } \mathscr{F}=\{P|P(Y|X)\} F={PP(YX)}

(二)策略(strategy)

在假设空间的众多模型中,机器学习需要按照什么标准选择最优模型

损失函数(loss function)   L ( Y , F ( X ) ) \ L(Y,F(X))  L(Y,F(X))

  • 对于给定模型,模型输出   f ( x ) \ f(x)  f(x) 和真实输出   Y \ Y  Y之间的误差可以用损失函数   L ( Y , F ( X ) ) \ L(Y,F(X))  L(Y,F(X))度量
  • 不同机器学习都有对应的损失函数
    • 回归任务:一般使用均方误差
    • 分类任务:一般使用对数损失函数或交叉熵损失函数

(三)算法(algorithm)

没有特别说明的情况下,“机器学习算法”实际上指的是模型
此处作为机器学习三要素的算法,指的是学习模型的具体优化方法
当机器学习的模型和损失函数确定时,机器学习可以具体地形式化为一个最优化问题
  • 常用优化算法
    • 随机梯度下降法
    • 牛顿法
    • 拟牛顿法等

三、机器学习核心

机器学习目的在于训练模型,使其对已知数据和未知数据有较好的预测能力
当模型对已知数据预测效果很好但对未知数据预测效果很差时,过拟合问题产生

过拟合问题(over-fitting)

  • 过拟合:在机器学习模型过程中,模型对训练数据学习过度,将数据中包含的噪声和误差也学习了,使模型在训练集上表现很好,在测试集上表现很差的一种现象。
    • 机器学习应该归纳学习数据中的普遍规律
  • 所有监督机器学习都可以用如下损失函数计算公式概括:
    min ⁡ 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f) minN1i=1NL(yi,f(xi))+λJ(f)
    • 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i)) N1i=1NL(yi,f(xi)):训练误差,针对训练集的经验误差项
    • λ J ( f ) \lambda J(f) λJ(f):正则化项,即惩罚项,用于对模型复杂度的约束和惩罚
  • 所有监督机器学习的核心无非就是正则化参数的同时最小化经验误差
    • 训练集误差小,测试集误差也小,模型有着较好的泛化能力;或者模型偏差小,方差也小
    • 机器学习模型的差别无非是经验误差项的改变,体现为损失函数的变化
      • 线性回归:经验误差项为平方损失(square loss)
      • AdaBoost:经验误差项为指数损失(exponential loss)
      • SVM:经验误差项为合页损失(hinge loss)
    • 正则化项决定机器学习模型质量
      • 通过对模型参数施加约束和惩罚,让模型时时刻刻保持对过拟合的警惕
  • 特征工程、扩大训练集数量、算法设计、超参数调优等都是为防止过拟合这个核心问题服务的

三、机器学习流程

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
机器学习是一种通过数据和统计学方法让机器具有学习能力的技术。它在计算机科学、统计学和数学等多个领域有着广泛的应用。在机器学习中,数学知识扮演着非常重要的角色,包括概率论、线性代数、微积分等等。概率论帮助我们理解和处理不确定性,线性代数可以用来表示和处理数据,微积分则可以帮助我们理解优化算法和损失函数。 CSND(CSDN)是一个致力于IT技术分享的社区平台,对于机器学习领域的学习者来说,CSND提供了大量优质的学习资源和技术分享。在CSND上,你可以找到关于机器学习的教程、案例分析、最新的技术研究成果等信息。同时,CSND也提供了一个交流的平台,你可以在这里和其他机器学习领域的从业者进行交流、互相学习。 通过CSND的学习资源,你可以系统地学习机器学习所需的数学知识,通过阅读专业的博客文章和教程案例,你可以学习到如何应用概率论、线性代数和微积分等数学知识机器学习算法和模型中。此外,CSND上也有很多实践经验分享的文章,通过这些文章,你可以了解到其他从业者在机器学习实践中的一些经验和教训。 总的来说,机器学习离不开数学知识,而CSND提供了丰富的学习资源,为机器学习领域的学习者提供了学习和交流的平台。希望学习机器学习的朋友们可以在CSND上找到自己需要的学习资源,不断提升自己在机器学习领域的专业能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bachelor_Hu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值