自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (2)
  • 收藏
  • 关注

原创 使用Python进行多个机器学习模型、多个评价指标表格绘制(AUC、敏感度、特异度、F1值、约登指数、MCC、Kappa等)

本文简要介绍了常用的机器学习模型评价指标,并使用Python绘制单个模型和多个模型的各个评价指标的汇总表格。评价指标有:训练集AUC、测试集AUC、敏感度(Sensitivity)、特异度(Specificity)、PPV、NPV、PLR、NLR、F1值、Youden Index、MCC、Kappa。

2022-03-03 18:11:59 9924 20

原创 python 将多个模型的ROC曲线绘制在一张图里(含图例)

将多个模型ROC曲线绘制在一张图中的python函数方法,其中包含函数、调用方法和注意事项。

2021-08-12 17:52:31 18479 85

原创 通过日期的相减计算年龄

有时候我们需要通过日期的加减来计算年龄,以下函数呢就是一个可以简单进行年龄计算的函数啦~import datetimedef calculate_age(start_time,end_time): if start_time != None and end_time != None: start_d = datetime.strptime(start_time, "%d-%b-%y") end_d = datetime.strptime(end_time, "%d

2021-06-10 16:17:46 2857

原创 特征清洗:基于条件改变数据集中一列中特定行的值(isin和str.contains)

1.精准匹配在数据集清洗中,经常需要通过判断一个特征的值是否等于一个特定值(或一些特征值),从而改变相对应的另外一列中特定行的值。代码如下:df.loc[df['column_condition'].isin([value_list]) == True, 'column_tochange'] = new_value其中’column_condition’是作为判断条件的特征名称,“value_list”是作为精准匹配的值的列表。这个列表中可以有多个值,也可以只有一个值,列表中可以同时有数字和字符串多

2021-06-03 17:37:09 387

原创 安装本地的python包

1. 终端安装进入控制终端,使用“cd”命令进入到安装包的文件夹中,找到对应的.py安装文件。(该文件可能命名为“setup.py”,也可能命名为“__init__.py”等)使用如下命令即可完成安装。python setup.py install2.直接复制粘贴安装包将解压好的安装包直接复制到对应的安装python的文件夹中即可。以下以我用的macOS为例:(1)首先在桌面点选“Go”,选择其中的“Computer”选项。(2)选择本地盘➡️“Users”文件夹➡️...

2021-06-03 14:14:13 4116

原创 依据特征名或特征中的关键字筛选特征

有时我们需要对数据集中的特征进行筛选,依据特征名或特征中的关键字选择或删除一些特征。下文主要介绍这两种不同的基于特征名的特征筛选方式。1.依据特征名选择特征首先创建说明用数据集:d = {'逻辑回归': [1, 2], '随机森林-集成模型': [3, 4], 'XGBoost-集成模型': [5, 6]}df = pd.DataFrame(data=d)(1)筛选需要的特征设想我们只想保留“逻辑回归”和“随机森林-集成模型”这两列数据(两个特征),可以直接用名字进行筛选。#若需要保留的特

2021-05-20 17:22:16 213

原创 机器学习集成方法Bagging、Boosting和Stacking

一. 概述集成学习是一种训练多个弱学习器(weak learners,即预测能力有限的模型)从而得到更好预测结果的方法。一般情况来说,集合弱学习器可以得到更准确更强力的模型。(这可能就是三个臭皮匠顶个诸葛亮吧~)1. 集成学习的分类集成学习方法主要有三类:1.Bagging: “并行”训练同质的弱学习器,然后将他们进行综合(平均?投票?)产生结果较好的模型。该种方法可以有效减少模型的variance。2.Boosting: “链式”训练同质的弱学习器,后一个模型在前一个模型上进行修正和完善。该种

2021-05-19 17:10:16 1612

原创 如何计算分类变量各个类别的占比并保存为表格(python)

我需要计算数据集df中某一个分类变量各个类别的占比时,写了如下代码:category_percentage_writer = pd.ExcelWriter('各分类特征类别数量和比例.xlsx')for i in df.columns: if df[i].dtype == object: percent = pd.DataFrame(df[i].value_counts(normalize=True)*100) count = pd.DataFrame(df[i

2021-05-11 16:19:11 2353

原创 安装XGBoost和LightGBM出坑记(MacOS)

案情经过这两天差点儿被XGBoost和LightGBM(其实是卡在Homebrew的安装)搞疯哈哈哈。因为要用XGBoost和LightGBM两个机器学习算法的包,所以尝试在jupyter notebook进行安装。在一个月不黑风不高的中午,我一如既往噼里啪啦面带微笑游刃有余地打下了如下两行安装指令:pip install xgboostpip install lightgbm然后轻松得到了安装完成可能需要重启kernal的指示(如下图)轻点鼠标等待重启之后,我施施然打下了两行导入包的指令:

2021-04-02 17:34:18 804 2

原创 决策树和它的周边

决策树的一些总结一. 概述二. 一些需要注意的概念1.信息和信息熵(1)熵的概念(2)信息的计算事件的信息随机变量的信息(信息熵)分布的信息(熵)(3)信息熵的性质(4)互信息(MI)(5)信息增益(IG)(6)信息增益率2.基尼不纯度(*Gini Impurity*)3.噪音数据(*Noisy Data*)4.节点(*node*)三. 决策树的生成第一步:确定根节点第二步:节点的分裂第三步:重复和停止生长四.决策树的分类1.ID32.C4.5优点:缺点:3.CART优点:五. 决策树的优缺点优点:缺点:

2021-03-25 18:00:50 302

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除