【带你快速了解人工智能开发机器学习基础课程第十四周】-CSDN博客

本文链接：https://blog.csdn.net/weixin_44126780/article/details/126824973

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、分类模型评估方法
二、交叉验证法
二、留一法
二、自助法
总结

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

#博学谷IT学习技术支持#

一、分类模型评估方法

掌握数据集划分中留出法、交叉验证法、留一法 API 的使用
了解数据集划分中自助法的采样规则
掌握分类问题评估方法

二、交叉验证法

1
K-Fold交叉验证，将数据随机且均匀地分成k分，如上图所示（k为10），假设每份数据的标号为0-9

第一次使用标号为0-8的共9份数据来做训练，而使用标号为9的这一份数据来进行测试，得到一个准确率
第二次使用标记为1-9的共9份数据进行训练，而使用标号为0的这份数据进行测试，得到第二个准确率
以此类推，每次使用9份数据作为训练，而使用剩下的一份数据进行测试
共进行10次训练，最后模型的准确率为10次准确率的平均值
这样可以避免了数据划分而造成的评估不准确的问题。

from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from collections import Counter
from sklearn.datasets import load_iris

def test():

    # 1. 加载数据集
    x, y = load_iris(return_X_y=True)
    print('原始类别比例:', Counter(y))
    print('*' * 40)

    # 2. 随机交叉验证
    spliter = KFold(n_splits=5, shuffle=True, random_state=0)
    for train, test in spliter.split(x, y):
        print('随机交叉验证:', Counter(y[test]))

    print('*' * 40)

    # 3. 分层交叉验证
    spliter = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)
    for train, test in spliter.split(x, y):
        print('分层交叉验证:', Counter(y[test]))


if __name__ == '__main__':
    test()

二、留一法

留一法( Leave-One-Out，简称LOO），即每次抽取一个样本做为测试集。

from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import LeavePOut
from sklearn.datasets import load_iris
from collections import Counter


def test01():

    # 1. 加载数据集
    x, y = load_iris(return_X_y=True)
    print('原始类别比例:', Counter(y))
    print('*' * 40)

    # 2. 留一法
    spliter = LeaveOneOut()
    for train, test in spliter.split(x, y):
        print('训练集:', len(train), '测试集:', len(test), test)

    print('*' * 40)

    # 3. 留P法
    spliter = LeavePOut(p=3)
    for train, test in spliter.split(x, y):
        print('训练集:', len(train), '测试集:', len(test), test)


if __name__ == '__main__':
    test01()

二、自助法

每次随机从D中抽出一个样本，将其拷贝放入D，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被抽到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D′，这就是自助采样的结果。

import pandas as pd


if __name__ == '__main__':

    # 1. 构造数据集
    data = [[90, 2, 10, 40],
            [60, 4, 15, 45],
            [75, 3, 13, 46],
            [78, 2, 64, 22]]

    data = pd.DataFrame(data)
    print('数据集:\n',data)
    print('*' * 30)

    # 2. 产生训练集
    train = data.sample(frac=1, replace=True)
    print('训练集:\n', train)

    print('*' * 30)

    # 3. 产生测试集
    test = data.loc[data.index.difference(train.index)]
    print('测试集:\n', test)