机器学习模型创建的数学原理

HadesZ~

已于 2022-02-12 22:56:19 修改

阅读量822

点赞数

分类专栏：机器学习笔记文章标签：机器学习算法人工智能

于 2021-12-26 16:36:55 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122001089

版权

机器学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1 模型工作原理

机器学习学习模型主要分为监督学习、无监督学习、半监督学习和强化学习，本文聚焦探讨目前应用最为广泛的监督学习问题，下午如未特殊指明，机器学习特指有监督学习机器学习。

众所周知，监督学习模型是通过一定数学原理，根据输入特征数据计算出预测结果的函数映射，它由自变量、函数参数和因变量组成。其中，自变量是输入模型的特征数据，模型参数分普通参数和超参数两种，因变量是模型计算出的预测结果。

超参数直接由开发者人工给定；而普通参数由观测到的训练集数据估计得到，估计过程首先由映射函数构建出目标函数，再借助参数优化方法逐步找到令目标函数最佳的参数取值，这一过程成为模型训练。

2 模型创建方法

由上所述，可以总结出创建一种机器学习算法的三要素为：

映射函数建立方法
目标函数构造方法
参数优化方法

2.1 映射函数建立方法

根据预测生效的数学原理不同，机器学习模型可分为概率模型（probabilistic model）和非概率模型（non-probabilistic model）两种。概率模型的映射函数由条件概率分布 $\theta)$ 表示，非概率模型的映射函数由决策函数（decision function） $Y = f (X)$ 表示。概率模型和非概率模型可以相互转化，条件概率分布最大化后得到决策函数，决策函数归一化后得到条件概率分布；例如属于非概率模型的线性回归算法，决策函数输入Sigmoid激活函数归一化后可转变为条件概率分布，成为概率模型逻辑回归算法的映射函数。

2.2 目标函数建立方法

假设我们观测到数据集 $D={(x_{i}, y_{i})_{i=1}^{n}}$ ，用于模型训练。

2.2.1 概率模型目标函数建立方法

概率模型目标函数建立有两种常用方法，一种是假设映射参数给定，最大化观测样本预测正确的概率，称作最大似然估计；另一种是假设数据给定，最大化见到最佳映射参数的概率，称作最大后验估计。

最大似然估计：
对于概率模型，自然能想到对数据集D中所有样本预测正确概率最高时，模型效果最优，可作为优化目标。概率模型，对数据集D单个样本预测正确的概率为 $P(y_{i}|x_{i}; \theta), x_{i} \in X$ ，对所有样本预测正确概率的合计为 $\prod_{i=1}^{n} P(y_{i}|x_{i}; \theta)$ ，因此概率模型的目标函数可定义为：
$\hat{\theta} = argmax\prod_{i=1}^{n} P(y_{i}|x_{i}; \theta)$
因为对数函数在(0, 1)区间为单调递增函数，为简化计算，不妨将目标函数改写为：
$\hat{\theta} = argmax\sum_{i=1}^{n} log(P(y_{i}|x_{i}; \theta))$
参数优化中，最大化问题一般统一改写成最小化问题以方便计算，因此目标函数可进一步简化为：
$\hat{\theta} = argmin-\sum_{i=1}^{n} log(P(y_{i}|x_{i}; \theta))$
最大后验估计：

2.2.2 非概率模型目标函数建立方法

对于非概率模型，自然能想到决策函数值与数据集D中样本标签差距最小时，模型预测效果最优，可作为优化目标。决策函数预测值与样本标签的差距，常用平方损失函数(quadratic loss function)或绝对损失函数(absolute loss function)度量，它们是常用损失函数(loss function)的一种，用来度量模型一次预测的好坏。

平方方损失函数(quadratic loss function)
$f(X;\theta)) = (Y - f(X;\theta))^{2}$
绝对损失函数(absolute loss function)
$f(X;\theta)) = | Y - f(X;\theta) |$

损失函数值越小，模型就越好，所以非概率模型的目标函数可定义为：
$\hat{\theta} = argmin \frac{1}{n} \sum_{i=1}^{n} L(y_{i}, f(x_{i};\theta))$

2.2.3 模型目标函数建立方法的统一性

若根据信息论原理，提炼出对数似然损失函数(log-likelihood loss function)：
$P(Y|X;\theta)) = -log(P(Y|X;\theta))$
那么不难发现 $argmin\frac{1}{n} \sum_{i=1}^{n} -log(P(Y|X;\theta))$ 与 $argmin-\sum_{i=1}^{n} log(P(y_{i}|x_{i}; \theta))$ 等效，估计得到的 $\hat{\theta}$ 相同。