机器学习入门之数据拆分、评价分类结果（二）

最新推荐文章于 2022-11-18 19:28:05 发布

懒猪小阳

最新推荐文章于 2022-11-18 19:28:05 发布

阅读量428

点赞数

分类专栏：机器学习入门算法

本文链接：https://blog.csdn.net/ymhua/article/details/103104408

版权

本文介绍了机器学习中数据拆分为训练集和测试集的重要性，以及如何用准确度和混淆矩阵评估分类结果。通过实例解释了精准率和召回率，并提供了Python代码实现。

摘要由CSDN通过智能技术生成

1.数据拆分

在上篇文章《机器学习入门算法之KNN》中，提到了训练数据和测试数据，即数据拆分的两个子集。
训练集 - 用于训练模型的子集；
测试集 -需要测试分类的数据。
为什么需要将数据拆分呢，比如我们在建立一个模型后，能够得到一个预测结果，如何来判断这个模型预测的结果是准确的呢？
因此，一般会将一组原始数据拆分为训练数据和测试数据两个子集，训练数据用于训练模型，而测试数据用于测试模型的准确度。
根据二八原则，一般将80%的数据用于训练模型，20%的数据用于测试模型的好坏。

2.评价分类结果

（1）准确度
分类准确度是指模型训练后，对测试数据的预测准确度。其实模型的好坏并不一定完全取决于准确度的高低，比如极度偏斜（skewed data）的数据，一场男篮球赛中，有一百个观众，其中这一百个观众中只有一个女生，预测观众是男还是女，那么模型预测的准确率会达到99%。如果模型本身有问题，那模型预测结果依然会很高，无法真正评价模型的好坏。因此只有准确度还不够，还需要混淆矩阵。
（2）混淆矩阵（Confusion Matrix）
对于二分类问题：
在这里插入图片描述

对于下图一组数据：
在这里插入图片描述
精准率：预测为1，预测对的概率。将1作为我们真正预测关注的对象
precision=
召回率：分母为真实值为1，分子为TP，预测真实值为1的概率

精准率和召回率Python代码实现

采用digits数据集，为了达到极度偏斜的效果，我们将所有数据设为如果是9为1，不是9为0

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

#当真实值为0，且预测值为0时,即TN
def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0

最低0.47元/天解锁文章

懒猪小阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门之数据拆分、评价分类结果（二）

1.数据拆分在上篇文章《机器学习入门算法之KNN》中，提到了训练数据和测试数据，即数据拆分的两个子集。训练集 - 用于训练模型的子集；测试集 -需要测试分类的数据。为什么需要将数据拆分呢，比如我们在建立一个模型后，能够得到一个预测结果，如何来判断这个模型预测的结果是准确的呢？因此，一般会将一组原始数据拆分为训练数据和测试数据两个子集，训练数据用于训练模型，而测试数据用于测试模型的准确度。...
复制链接

扫一扫