【机器学习】摘记-1

trireal仇

已于 2022-03-01 16:24:51 修改

阅读量149

点赞数

分类专栏： MachineLearning 文章标签：机器学习

于 2020-09-29 13:18:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44896119/article/details/108860820

版权

MachineLearning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1:机器学习的大框架

在这里插入图片描述

2:决策树熵的计算和信息增益

决策树核心：每回合都是最大信息增益，直到S为0。

在这里插入图片描述
其他指标衡量分割好坏：基尼不确定性，错分率。

决策树分类常见问题及评价指标

数据属性问题
常见离散属性：
二元属性，标称属性，适合决策树分类算法。
数值型等连续型属性：
如年龄，身高，血压，在进行分类时采用连续属性离散化，即分段分区间的形式，才能很好的适应决策树算法。
过拟合问题
两种误差定义
训练误差：分类算法对于现有训练样本集的拟合程度。
泛化误差：代表此方法的泛化能力，即对于新的样本数据的分类能力如何。
两种误差比较
若模型的训练误差较大，则称此分类模型欠拟合。
若模型的训练误差低但是泛化误差比较高，称此分类模型过拟合。
解决方法
欠拟合：增加分类属性的数量，选取合适的分类方法，提高模型对于训练样本的拟合程度。
过拟合：把噪声学进模型了，通过划分样本集，70%样本训练决策树模型，30%样本检测模型，提高模型的泛化能力或者通过减少决策树的深度来减少过拟合的可能性。
分类效果评价
指标：训练误差，泛化误差，准确率，错误率
对于一般二分类问题，分类情况有：
真正类TP
假反类FN
假正类FP
真反类TN

3.3 用受试者工作特征曲线(ROC)曲线来作为综合评价指标
ROC曲线与两端点所连线段组成的面积为AUC，AUC值越大，表示分类模型的预测准确性越高。

3:K折交叉验证法

交叉验证主要用于防止模型过于复杂而引起的过拟合，是一种评价训练数据的数据集泛化能力的统计方法。其基本思想是将原始数据进行划分，分成训练集和测试集，训练集用来对模型进行训练，测试集用来测试训练得到的模型，以此来作为模型的评价指标。

将原始数据D按比例划分，比如7：3，从D中随机选择70%的数据作为训练集train_data，剩余的作为测试集test_data(绿色部分)。如下图所示，这里的数据都只利用了一次，并没有充分利用，对于小数据集，需要充分利用其数据的信息来训练模型，一般会选择K折交叉验证。

**

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】摘记-1

1:
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。