【项目内容】
下载安装Matlab,完成对数据的初步应用。
【方案设计】
基于上个实验
1.用决策树分类器分类test数据。
2.计算出整个分类过程的敏感性,特异性,准确率F1的值并计算出方差。
3.画出每次分类中的决策树-可观化
【实验(实训)过程】(步骤、记录、数据、程序等)
决策树:决策树是一种基于树状结构的分类和回归算法。它通过对数据进行逐步划分,构建一个树形模型,用于预测样本的类别或数值。
决策树的基本思想是通过一系列的判断条件对数据进行划分,使得每个子集内的样本尽可能属于同一类别或具有相似的数值。在构建决策树时,通常会选择一个最优的特征作为划分依据,使得划分后的子集纯度最大或者不纯度最小。
决策树的构建过程通常包括以下步骤:
1. 特征选择:根据某个评估指标(如信息增益、基尼系数等),选择最优的特征作为划分依据。
2. 数据划分:根据选择的最优特征,将数据集划分为多个子集,每个子集对应一个特征值。每个子集都成为当前节点的子节点。
3. 递归构建树:对每个子节点,重复步骤1和步骤2,直到满足终止条件。终止条件可以是达到最大深度、节点中的样本数小于某个阈值等。
4. 标记叶节点:当达到终止条件时,将叶节点标记为对应的类别。
5. 预测新样本:通过将新样本从根节点开始,根据节点的判断条件依次向下遍历树,直到到达叶节点。叶节点的类别即为预测结果。
决策树的优点包括易于理解和解释、能够处理离散和连续特征、能够处理多分类问题等。然而,决策树也存在一些缺点,如容易过拟合、对输入数据的变化敏感等。为了解决过拟合问题,可以使用剪枝技术或集成学习方法(如随机森林)来改进决策树算法。
在MATLAB中,FP、TP、FN和TN是用于评估分类模型性能的混淆矩阵中的四个指标:
- FP(False Positive)表示模型将负例错误地预测为正例的数量。
- TP(True Positive)表示模型将正例正确地预测为正例的数量。
- FN(False Negative)表示模型将正例错误地预测为负例的数量。
- TN(True Negative)表示模型将负例正确地预测为负例的数量。
准确性(Accuracy)是分类模型评估中最常用的指标之一,它表示模型正确预测的样本占总样本数的比例。准确性可以通过以下公式计算:
准确性 = (真阳性 + 真阴性) / (真阳性 + 假阳性 + 真阴性 + 假阴性)
其中,真阳性表示模型正确预测为正类的样本数,真阴性表示模型正确预测为负类的样本数,假阳性表示模型错误预测为正类的样本数,假阴性表示模型错误预测为负类的样本数。
特异性(Specificity)是指模型在预测负类样本时的准确性,它表示模型正确预测为负类的样本占所有负类样本的比例。特异性可以通过以下公式计算:
特异性 = 真阴性 / (真阴性 + 假阳性)
F1值是综合考虑了准确性和召回率的指标,它可以用来评估模型在正类和负类样本上的平衡性。F1值可以通过以下公式计算:
F1 = 2 * (准确率 * 召回率) / (准确率 + 召回率)
其中,准确率(Precision)表示模型预测为正类的样本中实际为正类的比例,准确率可以通过以下公式计算&#