柳奈奈-CSDN博客

原创使用Python进行多个机器学习模型、多个评价指标表格绘制（AUC、敏感度、特异度、F1值、约登指数、MCC、Kappa等）

本文简要介绍了常用的机器学习模型评价指标，并使用Python绘制单个模型和多个模型的各个评价指标的汇总表格。评价指标有：训练集AUC、测试集AUC、敏感度（Sensitivity）、特异度（Specificity）、PPV、NPV、PLR、NLR、F1值、Youden Index、MCC、Kappa。

2022-03-03 18:11:59 9924 20

原创 python 将多个模型的ROC曲线绘制在一张图里（含图例）

将多个模型ROC曲线绘制在一张图中的python函数方法，其中包含函数、调用方法和注意事项。

2021-08-12 17:52:31 18479 85

原创通过日期的相减计算年龄

有时候我们需要通过日期的加减来计算年龄，以下函数呢就是一个可以简单进行年龄计算的函数啦～import datetimedef calculate_age(start_time,end_time): if start_time != None and end_time != None: start_d = datetime.strptime(start_time, "%d-%b-%y") end_d = datetime.strptime(end_time, "%d

2021-06-10 16:17:46 2857

原创特征清洗：基于条件改变数据集中一列中特定行的值（isin和str.contains）

1.精准匹配在数据集清洗中，经常需要通过判断一个特征的值是否等于一个特定值（或一些特征值），从而改变相对应的另外一列中特定行的值。代码如下：df.loc[df['column_condition'].isin([value_list]) == True, 'column_tochange'] = new_value其中’column_condition’是作为判断条件的特征名称，“value_list”是作为精准匹配的值的列表。这个列表中可以有多个值，也可以只有一个值，列表中可以同时有数字和字符串多

2021-06-03 17:37:09 387

原创安装本地的python包

1. 终端安装进入控制终端，使用“cd”命令进入到安装包的文件夹中，找到对应的.py安装文件。（该文件可能命名为“setup.py”，也可能命名为“__init__.py”等）使用如下命令即可完成安装。python setup.py install2.直接复制粘贴安装包将解压好的安装包直接复制到对应的安装python的文件夹中即可。以下以我用的macOS为例：（1）首先在桌面点选“Go”，选择其中的“Computer”选项。（2）选择本地盘➡️“Users”文件夹➡️...

2021-06-03 14:14:13 4116

原创依据特征名或特征中的关键字筛选特征

有时我们需要对数据集中的特征进行筛选，依据特征名或特征中的关键字选择或删除一些特征。下文主要介绍这两种不同的基于特征名的特征筛选方式。1.依据特征名选择特征首先创建说明用数据集：d = {'逻辑回归': [1, 2], '随机森林-集成模型': [3, 4], 'XGBoost-集成模型': [5, 6]}df = pd.DataFrame(data=d)（1）筛选需要的特征设想我们只想保留“逻辑回归”和“随机森林-集成模型”这两列数据（两个特征），可以直接用名字进行筛选。#若需要保留的特

2021-05-20 17:22:16 213

原创机器学习集成方法Bagging、Boosting和Stacking

一. 概述集成学习是一种训练多个弱学习器（weak learners，即预测能力有限的模型）从而得到更好预测结果的方法。一般情况来说，集合弱学习器可以得到更准确更强力的模型。（这可能就是三个臭皮匠顶个诸葛亮吧～）1. 集成学习的分类集成学习方法主要有三类:1.Bagging: “并行”训练同质的弱学习器，然后将他们进行综合（平均？投票？）产生结果较好的模型。该种方法可以有效减少模型的variance。2.Boosting: “链式”训练同质的弱学习器，后一个模型在前一个模型上进行修正和完善。该种

2021-05-19 17:10:16 1612

原创如何计算分类变量各个类别的占比并保存为表格（python）

我需要计算数据集df中某一个分类变量各个类别的占比时，写了如下代码：category_percentage_writer = pd.ExcelWriter('各分类特征类别数量和比例.xlsx')for i in df.columns: if df[i].dtype == object: percent = pd.DataFrame(df[i].value_counts(normalize=True)*100) count = pd.DataFrame(df[i

2021-05-11 16:19:11 2353

原创安装XGBoost和LightGBM出坑记(MacOS)

案情经过这两天差点儿被XGBoost和LightGBM（其实是卡在Homebrew的安装）搞疯哈哈哈。因为要用XGBoost和LightGBM两个机器学习算法的包，所以尝试在jupyter notebook进行安装。在一个月不黑风不高的中午，我一如既往噼里啪啦面带微笑游刃有余地打下了如下两行安装指令：pip install xgboostpip install lightgbm然后轻松得到了安装完成可能需要重启kernal的指示（如下图）轻点鼠标等待重启之后，我施施然打下了两行导入包的指令：

2021-04-02 17:34:18 804 2

原创决策树和它的周边

决策树的一些总结一. 概述二. 一些需要注意的概念1.信息和信息熵（1）熵的概念（2）信息的计算事件的信息随机变量的信息（信息熵）分布的信息（熵）（3）信息熵的性质（4）互信息（MI）（5）信息增益（IG）（6）信息增益率2.基尼不纯度（*Gini Impurity*）3.噪音数据（*Noisy Data*）4.节点（*node*）三. 决策树的生成第一步：确定根节点第二步：节点的分裂第三步：重复和停止生长四.决策树的分类1.ID32.C4.5优点：缺点：3.CART优点：五. 决策树的优缺点优点：缺点：

2021-03-25 18:00:50 302

柳奈奈的博客