机器学习
文章平均质量分 73
袁钰琦
这个作者很懒,什么都没留下…
展开
-
使用决策树进行个人信用风险评估代码
使用决策树进行个人信用风险评估第一步,导入csv文件的数据集使用UCI上的德国信用数据集。该数据集包含了1000个贷款信息,每一个贷款有20个自变量和一个类变量记录该笔贷款是否违约。我们将使用该数据集构建模型来预测贷款是否违约。import pandas as pdimport numpy as npimport matplotlib.pyplot as pltcredit = pd.read_csv("data/german_credit.csv")第二步,观察数据集可根据一些函数来原创 2021-09-19 13:17:15 · 2418 阅读 · 1 评论 -
使用sklearn建立决策树模型代码
使用sklearn训练模型并预测结果定义数据def loaddata(): dataSet = [[0, 0,0,0, 'no'], [0, 0,0,1,'no'], [0, 1,0,1, 'yes'], [0, 1,1,0, 'yes'], [0, 0,0,0, 'no'], [1, 0,0,0, 'no'], [1原创 2021-09-19 10:57:23 · 1260 阅读 · 1 评论 -
动手实现ID3决策树代码
ID3决策树本文从计算数据集的信息熵、划分数据集、选择最优特征、递归训练一棵树、预测五个方面介绍怎样构建ID3决策树。先要介绍信息熵和信息增益的这两个公式:Ent(D)=−∑k=1∣Y∣pklog2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}Ent(D)=−k=1∑∣Y∣pklog2pkGain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)\operatornam原创 2021-09-17 22:36:18 · 556 阅读 · 0 评论 -
决策树公式及知识框架
西瓜书简介思维导图决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应决策结果,根结点包含样本全集。从根结点到叶结点的路径对应了一个判定测试序列。划分选择如何选择最优划分属性→结点的纯度最高信息增益(ID3)信息熵:度量样本集合纯度的一种指标Ent(D)=−∑k=1∣Y∣pklog2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}Ent(D)=−k=1∑∣Y∣pklog2原创 2021-09-17 21:30:52 · 1071 阅读 · 0 评论 -
信息熵的最值问题
证明Ent(D)Ent(D)Ent(D)的最小值为0,最大值为log2∣Y∣log_2|\mathcal{Y}|log2∣Y∣Ent(D)=−∑k=1∣Y∣pklog2pk\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}Ent(D)=−k=1∑∣Y∣pklog2pk其中,0≤pk≤10\le p_k\le10≤pk≤1,−∑k=1∣y∣pk=1-\sum_{k=1}^{|\mathcal{y}原创 2021-09-17 21:21:56 · 1687 阅读 · 0 评论