ML001 机器学习预备知识

Bachelor_Hu

已于 2023-06-13 13:53:01 修改

阅读量55

点赞数

分类专栏：机器学习文章标签：机器学习算法笔记

于 2023-05-30 16:30:14 首次发布

本文链接：https://blog.csdn.net/weixin_47870819/article/details/130951477

版权

5 篇文章 0 订阅

订阅专栏

一、关键术语与任务类型

机器学习是机器学习模型在一定的优化策略下使用相应求解算法来达到最优目标的过程

模型是要学习的决策函数或者条件概率分布

在假设空间的众多模型中，机器学习需要按照什么标准选择最优模型

没有特别说明的情况下，“机器学习算法”实际上指的是模型
此处作为机器学习三要素的算法，指的是学习模型的具体优化方法
当机器学习的模型和损失函数确定时，机器学习可以具体地形式化为一个最优化问题

机器学习目的在于训练模型，使其对已知数据和未知数据有较好的预测能力
当模型对已知数据预测效果很好但对未知数据预测效果很差时，过拟合问题产生

过拟合：在机器学习模型过程中，模型对训练数据学习过度，将数据中包含的噪声和误差也学习了，使模型在训练集上表现很好，在测试集上表现很差的一种现象。
- 机器学习应该归纳学习数据中的普遍规律
所有监督机器学习都可以用如下损失函数计算公式概括：
$\min\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f)$
- $\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))$ ：训练误差，针对训练集的经验误差项
- $\lambda J(f)$ :正则化项，即惩罚项，用于对模型复杂度的约束和惩罚
所有监督机器学习的核心无非就是正则化参数的同时最小化经验误差
- 训练集误差小，测试集误差也小，模型有着较好的泛化能力；或者模型偏差小，方差也小
- 机器学习模型的差别无非是经验误差项的改变，体现为损失函数的变化
  - 线性回归：经验误差项为平方损失（square loss）
  - AdaBoost:经验误差项为指数损失（exponential loss）
  - SVM:经验误差项为合页损失（hinge loss）
- 正则化项决定机器学习模型质量
  - 通过对模型参数施加约束和惩罚，让模型时时刻刻保持对过拟合的警惕
特征工程、扩大训练集数量、算法设计、超参数调优等都是为防止过拟合这个核心问题服务的