机器学习入门之数据拆分、评价分类结果(二)

本文介绍了机器学习中数据拆分为训练集和测试集的重要性,以及如何用准确度和混淆矩阵评估分类结果。通过实例解释了精准率和召回率,并提供了Python代码实现。
摘要由CSDN通过智能技术生成

1.数据拆分

在上篇文章《机器学习入门算法之KNN》中,提到了训练数据和测试数据,即数据拆分的两个子集。
训练集 - 用于训练模型的子集;
测试集 -需要测试分类的数据。
为什么需要将数据拆分呢,比如我们在建立一个模型后,能够得到一个预测结果,如何来判断这个模型预测的结果是准确的呢?
因此,一般会将一组原始数据拆分为训练数据和测试数据两个子集,训练数据用于训练模型,而测试数据用于测试模型的准确度。
根据二八原则,一般将80%的数据用于训练模型,20%的数据用于测试模型的好坏。

2.评价分类结果

(1)准确度
分类准确度是指模型训练后,对测试数据的预测准确度。其实模型的好坏并不一定完全取决于准确度的高低,比如极度偏斜(skewed data)的数据,一场男篮球赛中,有一百个观众,其中这一百个观众中只有一个女生,预测观众是男还是女,那么模型预测的准确率会达到99%。如果模型本身有问题,那模型预测结果依然会很高,无法真正评价模型的好坏。因此只有准确度还不够,还需要混淆矩阵。
(2)混淆矩阵(Confusion Matrix)
对于二分类问题:
在这里插入图片描述

对于下图一组数据:
在这里插入图片描述
精准率:预测为1,预测对的概率。将1作为我们真正预测关注的对象
precision=在这里插入图片描述
召回率:分母为真实值为1,分子为TP,预测真实值为1的概率
在这里插入图片描述在这里插入图片描述

精准率和召回率Python代码实现

采用digits数据集,为了达到极度偏斜的效果,我们将所有数据设为如果是9为1,不是9为0

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

#当真实值为0,且预测值为0时,即TN
def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值