机器学习基础第六章模型选择

最新推荐文章于 2022-07-30 16:45:30 发布

zc02051126

最新推荐文章于 2022-07-30 16:45:30 发布

阅读量802

点赞数 1

分类专栏：统计机器学习算法理论文章标签：机器学习数据

本文链接：https://blog.csdn.net/zc02051126/article/details/54754797

版权

统计机器学习算法理论专栏收录该内容

42 篇文章 5 订阅

订阅专栏

1 模型选择方法

下图是不同阶多项式回归问题，从中可以看到不同的M取值所对应的不同效果，M=0和M=1时都是欠拟合，M=9多拟合，M=3时多项式回归模型刚好合适，在实际应用中不能将每个模型都画出来进行观察。

在模型选择中如何才能得到一个不过拟合也不欠拟合的模型？将数据集分为：训练集，交叉验证集，测试集。对于每个可能的模型，用训练数据训练模型然后在训练好的模型上做交叉验证，在所有的模型中选出交叉验证结果最好的模型最为最终模型，然后在最终模型上的测试数据的精度作为最终的模型精度。

2 交叉验证

有的时候也将数据集分为训练集和测试集，将训练数据集再次作为测试数据集用于测试模型的性能，在方法论上是错误的，因为这种测试方法会使模型对未知数据的预测误差变得很大。

为了避免过拟合，用训练集训练模型，用测试集测试模型的性能。

但是这种划分方法会减少训练集中的样本，也许对模型很有用的样本最终就没有被划分到训练集中。所以一种解决方法是将数据全集连续划分多次，使之成为多个训练集和测试集，最终的模型得分是这几个训练集和测试集的平均得分，这一过程称为交叉验证。交叉验证计算时间较长，但是不会浪费样本数据信息，交叉验证方法在小数据时相当有用。

2.1 计算交叉验证指标

有数据d，经过k次平均分割，每次分割成 $\text{train}_{i}$ 和 $\text{test}_{i}$ 分别代表第 $i$ 个测试集合训练集，用 $\text{train}_{i}$ 训练模型，并用 $\text{test}_{i}$ 测试模型，得到的第 $i$ 个模型的得分是 $\text{score}_{i}$ ，当结果 $k$ 次执行后，共得到 $k$ 个得分 $\left\lbrack \text{score}_{1},\text{score}_{2},\cdots,\text{score}_{k}\right\rbrack$ ，求这 $k$ 个得分的平均值作为模型的最终得分。

2.2 数据集分割方法

2.2.1 K折法

将数据平均分成 $K$ 份，称为 $K$ 折。用其中的 $K-1$ 份作为训练数据，剩下的一份作为测试，进行 $K$ 次训练和测试，得到K个得分作为最终的得分。

2.2.2 留一验证法（LOO）

留一验证从样本全集中取出一个作为测试样本，剩下的所有样本作为训练样本。假设有 $n$ 个样本，将会有 $n$ 个不同的训练集和测试集，这种方法不会浪费过多的训练数据，因为只有一个数据作为测试样本。

2.2.3 留P个样本验证（LPO）

这个方法和留一验证法类似，留一验证中留的是留一个样本作为测试样本，这里留的是 $P$ 个样本而已。

3 模型性能的评价准则

3.1 混淆矩阵

二分类问题的混淆矩阵如下， $P^{'},N^{'}$ 为预测结果。

图3.1.1 二分类问题混淆矩阵

定义： $TP$ ：为正类别预测为正类（正确预测）； $FP$ ：正类被预测为负类（错误预测）； $FN$ ：负类被预测为正类（错误预测）； $TN$ ：负类被预测为负类（正确预测）。 $P^{'},N^{'}$ 为预测结果

3.2 准确率、召回率、F-得分

1 二分类问题

定义：按照图1.2-1中的定义，得到二分类的准确率、召回率、F-measures如下

p r e c i s i o n = TP T P + F P

$precision = \frac{\text{TP}}{TP + FP}$

r e c a l l = TP T P + F N

$recall = \frac{\text{TP}}{TP + FN}$

F β = (1 + β 2) p r e c i s i o n \times r e c a l l β 2 \times p r e c i s i o n + r e c a l l

$F_{\beta} = \left( 1 + \beta^{2} \right)\frac{precision \times recall}{\beta^{2} \times precision + recall}$

2 多分类问题

定义：

$y$ 是预测结果（集合），集合元素为 $(sample,label)$
$\hat{y}$ 是真实结果（集合），集合元素为 $(sample,label)$
$L$ 是类别集合
$S$ 是样本集合
$y_{l}$ 是类别 $l$ 的预测结果
$P\left( A,B \right) \frac{\left| A \cap B \right|}{\left| A \right|}$
$R\left( A,B \right) \frac{\left| A \cap B \right|}{\left| B \right|}$
$F_{\beta}\left( A,B \right) \left( 1 + \beta \right)\frac{P\left( A,B \right) \times R\left( A,B \right)}{\beta^{2}P\left( A,B \right) + R\left( A,B \right)}$

1）对所有类别的准确率、召回率、 $F_{\beta}$ 度量值求平均：

precision = 1 ⌊ L ⌋ \sum l \in L P (y l, y^l)

$\text{precision} = \frac{1}{\left\lfloor L \right\rfloor}\sum_{l \in L}^{}{P\left( y_{l},{\hat{y}}_{l} \right)}$

recall = 1 ⌊ L ⌋ \sum l \in L R (y l, y^l)

$\text{recall} = \frac{1}{\left\lfloor L \right\rfloor}\sum_{l \in L}^{}{R\left( y_{l},{\hat{y}}_{l} \right)}$

F - s c o r e = 1 ⌊ L ⌋ \sum l \in L F β (A, B)

$F - score = \frac{1}{\left\lfloor L \right\rfloor}\sum_{l \in L}^{}{F_{\beta}\left( A,B \right)}$

2）对整个样本计算准确率、召回率、 $F_{\beta}$ 度量值：

precision = P (y, y^)

$\text{precision} = P\left( y,\hat{y} \right)$

recall = R (y, y^)

$\text{recall} = R\left( y,\hat{y} \right)$

这中算法中 $\text{micr}o_{\text{precision}} = micro\_ recall$ ， $F - score = F_{\beta}\left( y,\hat{y} \right)$

3）支持度加权平均计算准确率、召回率、 $F_{\beta}$ 度量值：

precision = 1 \sum l \in L | y i ^ | \sum l \in L | y i^| P (y l, y^l)

$\text{precision} = \frac{1}{\sum_{l \in L}^{}\left| \hat{y_{i}} \right|}\sum_{l \in L}^{}\left| \hat{y_{i}} \right|P\left( y_{l},{\hat{y}}_{l} \right)$

recall = 1 \sum l \in L | y i ^ | \sum l \in L | y i^| R (y l, y^l)

$\text{recall} = \frac{1}{\sum_{l \in L}^{}\left| \hat{y_{i}} \right|}\sum_{l \in L}^{}\left| \hat{y_{i}} \right|R\left( y_{l},{\hat{y}}_{l} \right)$

F - s c o r e = 1 \sum l \in L | y i ^ | \sum l \in L | y i^| F β (y l, y^l)

$F - score = \frac{1}{\sum_{l \in L}^{}\left| \hat{y_{i}} \right|}\sum_{l \in L}^{}\left| \hat{y_{i}} \right|F_{\beta}\left( y_{l},{\hat{y}}_{l} \right)$

4）分别计算每个类别的准确率、召回率、F-得分，类似于1）中的不加权情况。

zc02051126

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础第六章模型选择

1 模型选择方法下图是不同阶多项式回归问题，从中可以看到不同的M取值所对应的不同效果，M=0和M=1时都是欠拟合，M=9多拟合，M=3时多项式回归模型刚好合适，在实际应用中不能将每个模型都画出来进行观察。在模型选择中如何才能得到一个不过拟合也不欠拟合的模型？将数据集分为：训练集，交叉验证集，测试集。对于每个可能的模型，用训练数据训练模型然后在训练好的模型上做交叉验证，在所有的模型中选出交叉验证结果最
复制链接

扫一扫