
数据科学从0到1
文章平均质量分 67
数据科学全系列(pandas、numpy、matplotlib、seaborn、plotly、sklearn、keras、tensorflow、pytorch)、包含数据可视化、数据预处理、特征工程、模型建模、参数调优、模型监控。具体细分领域包含、数据挖掘、自然语言处理、图像处理、时间序列分析等。
Data+Science+Insight
毕业于中国科学院大学智能计算专业。研究方向为,数据挖掘、机器学习、深度学习等。深度参与了多项数据挖掘、计算机视觉以及自然语言处理相关项目,例如,社会计算、异常分析、聚类分析、预测分析、序列标记、语言生成、OCR、图像分类+检测+分割等。现任某茅数据科学家,负责数据科学团队的管理及项目实施。曾就职于中国信科集团,负责大数据与机器学习组的管理及项目实施。曾参与国家级医疗大数据平台机器学习项目的开发和建设、构建了完整的数据链路、特征池、模型仓库、迁移中心、数据应用、数据服务Pipeline,并与AWS team基于AWS云服务合作开发大型工业互联网项目,积累了工业互联网模型构建、部署、监控实战经验。
展开
-
列线图、nomogram到底是什么东西?如何实施?如何解读?
列线图、nomogram到底是什么东西?如何实施?如何解读?首先:列线图、nomogram是logistic回归模型的具象化,就是可视化了的机器学习logistic模型;其次:本来作者想让一切变得更加直观(门外汉也可以理解模型)、可是如果不了解其中的机理,那么反而是一种负担;最后:一定要抽丝剥茧、抓住本质、不要被fancy terms、 fancy faces给迷惑或者恐吓,最后都是一种笑话;我们来看图说话:gist是一种胃肠道间质瘤,作者构建了无复发生存率的logistic..原创 2021-05-11 09:45:46 · 10525 阅读 · 4 评论 -
校准曲线(calibration curve)是什么?如何绘制校准曲线(calibration curve)?如何通过过校准曲线进行分析?什么是高估?什么是低估?
校准曲线(calibration curve)是什么?如何绘制校准曲线(calibration curve)?如何通过过校准曲线进行分析?什么是高估?什么是低估?临床数据的分析处理中,常常采用各种模型预测病人的结局(例如Logistic与Cox模型)。很多情况下我们构建了预测模型,但是没有评估模型的有效性及可靠性这样是不妥的。那么如何保证保证预测模型是可靠的,可以应用于生产生活或者说临床辅助诊断的。靠谱的模型才有实际赋能的意义,否则就是一个花架子不中用,预测结果才有可能影响临床.原创 2021-04-19 09:44:46 · 23178 阅读 · 14 评论 -
残差分析与残差图
从线性回归与非线性回归说起均方误差(Mean Squared Error,MSE):真实值与预测值差的平方和的平均值。RMSE指标在某些情况下决定系数(coefficient of determination)R^2【R方】非常重要,可以将其看成一个MSE标准化版本,R^2是模型捕获响应方差的分数。另一个诊断图是残差的直方图。 理想情况下,我们希望残差是正态分布的,这意味着模型在两个方向(高和低)上误差是相同的。用普通最小二乘法(OLS,ordinary least sq...原创 2021-03-18 16:48:04 · 13422 阅读 · 3 评论 -
python三分类模型,基于预测概率和标签信息,计算 micro-auc, macro-auc, weight-auc指标,以及这些指标对应的95%置信区间(confidence interval)
python三分类模型,基于预测概率和标签信息,计算 micro-auc, macro-auc, weight-auc指标,以及这些指标对应的95%置信区间(confidence interval)原创 2024-06-27 14:25:17 · 832 阅读 · 0 评论 -
python三分类模型,基于混淆矩阵计算总体的ACC、特异度、灵敏度、PPV和NPV指标,以及每一个类别对应的ACC、特异度、灵敏度、PPV和NPV指标的95%置信区间
python三分类模型,基于混淆矩阵计算总体的ACC、特异度、灵敏度、PPV和NPV指标,以及每一个类别对应的ACC、特异度、灵敏度、PPV和NPV指标的95%置信区间原创 2024-06-27 14:21:00 · 793 阅读 · 0 评论 -
python计算三分类模型每一类对应的特异度、灵敏度、PPV、NPV,及特异度、灵敏度、PPV、NPV的置信区间(confidence interval)
python计算三分类模型每一类对应的特异度、灵敏度、PPV、NPV,及特异度、灵敏度、PPV、NPV的置信区间(confidence interval)原创 2024-06-13 16:15:47 · 323 阅读 · 0 评论 -
python计算二分类模型预测结果对应的特异度、灵敏度、PPV、NPV,及特异度、灵敏度、PPV、NPV的置信区间(confidence interval)
python计算二分类模型预测结果对应的特异度、灵敏度、PPV、NPV,及特异度、灵敏度、PPV、NPV的置信区间(confidence interval)原创 2024-06-13 15:58:19 · 372 阅读 · 0 评论 -
python计算机器学习模型预测结果对应的AUC值,AUC的95%置信区间(confidence interval)
python计算机器学习模型预测结果对应的AUC值,AUC的95%置信区间(confidence interval)原创 2024-06-13 13:36:20 · 722 阅读 · 0 评论 -
python读取一张图片并保存为pdf文件,python读取多张图片保存为pdf文件(一张图片一页)、遇到需要将图片转换为pdf的时候用
python读取一张图片并保存为pdf文件,python读取多张图片保存为pdf文件(一张图片一页)、遇到需要将图片转换为pdf的时候用原创 2024-06-13 13:17:29 · 352 阅读 · 0 评论 -
python基于机器学习二分类、计算分类混淆矩阵、计算每一个类别对应的特异度(specificity)、灵敏度(sensitivity)、PPV、NPV
python基于机器学习二分类、计算分类混淆矩阵、计算每一个类别对应的特异度(specificity)、灵敏度(sensitivity)、PPV、NPV原创 2024-04-30 10:17:36 · 408 阅读 · 0 评论 -
python基于机器学习三分类结果、计算三分类混淆矩阵、计算每一个类别对应的特异度(specificity)、灵敏度(sensitivity)、PPV、NPV
python基于机器学习三分类结果、计算三分类混淆矩阵、计算每一个类别对应的特异度(specificity)、灵敏度(sensitivity)、PPV、NPV原创 2024-04-30 10:06:34 · 776 阅读 · 0 评论 -
python使用pytorch预训练模型dinov2、dinov2_vitl14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维
python使用pytorch预训练模型dinov2、dinov2_vitl14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维原创 2023-11-07 08:49:47 · 1166 阅读 · 0 评论 -
python使用pytorch预训练模型dinov2、dinov2_vitb14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维
python使用pytorch预训练模型dinov2、dinov2_vitb14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维原创 2023-11-01 08:38:03 · 921 阅读 · 0 评论 -
python使用pytorch预训练模型dinov2、dinov2_vits14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维
python使用pytorch预训练模型dinov2、dinov2_vits14模型抽取图像特征、将tensor转化为numpy数组、批量抽取多个图片的特征并使用PCA进行数据压缩、降维原创 2023-10-31 09:53:59 · 895 阅读 · 0 评论 -
python使用sklearn以及imblearn包进行数据扩增(同样适用于组学数据处理方案)
python使用sklearn以及imblearn包进行数据扩增原创 2023-10-29 08:46:26 · 471 阅读 · 0 评论 -
sklearn使用投票回归VotingRegressor算法构建多模型融合的投票回归模型、并评估多模型融合的回归模型、回归模型评估函数(包含R方、mse、rmse、mape)
sklearn使用投票回归VotingRegressor算法构建多模型融合的投票回归模型、并评估多模型融合的回归模型、回归模型评估函数(包含R方、mse、rmse、mape)原创 2023-06-20 10:48:14 · 378 阅读 · 0 评论 -
python使用pytorch预训练模型densenet121批量抽取图像特征、并始终主成分分析PCA压缩抽取后的特征进行数据压缩、降维
python使用pytorch预训练模型densenet121批量抽取图像特征、并始终主成分分析PCA压缩抽取后的特征进行数据压缩、降维原创 2023-06-11 09:31:31 · 540 阅读 · 0 评论 -
python使用pytorch预训练模型densenet121抽取图像特征、将tensor转化为numpy数组
python使用pytorch预训练模型densenet121抽取图像特征、将tensor转化为numpy数组原创 2023-06-12 08:56:06 · 630 阅读 · 1 评论 -
python计算两个标注员图像标注的一致性指标:dice、使用dice来衡量同一个图像两个标注员标注的可靠性
python计算两个标注员图像标注的一致性指标:dice、使用dice来衡量同一个图像两个标注员标注的可靠性原创 2023-06-10 19:30:30 · 382 阅读 · 0 评论 -
python计算两个标注员图像标注的一致性指标:hausdorff_95、使用Hausdorff距离来量化图像中不同区域之间的相似度和差异性
python计算两个标注员图像标注的一致性指标:hausdorff_95、使用Hausdorff距离来量化图像中不同区域之间的相似度和差异性原创 2023-06-10 19:22:09 · 457 阅读 · 0 评论 -
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:size参数指定水印文本内容的字体大小
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:size参数指定水印文本内容的字体大小原创 2023-06-10 11:11:41 · 165 阅读 · 0 评论 -
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:opacity参数指定水印文本内容的透明度
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:opacity参数指定水印文本内容的透明度原创 2023-06-05 09:01:44 · 156 阅读 · 0 评论 -
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:color参数指定水印文本内容的颜色
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:color参数指定水印文本内容的颜色原创 2023-06-08 08:59:56 · 110 阅读 · 0 评论 -
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:angle参数指定水印文本内容的角度(angle)
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:angle参数指定水印文本内容的角度(angle)原创 2023-06-18 09:58:19 · 122 阅读 · 0 评论 -
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:mark参数指定水印文本内容
python使用filestools包批量给指定文件夹下的图像文件添加自定义水印:mark参数指定水印文本内容原创 2023-06-15 11:35:50 · 124 阅读 · 0 评论 -
Python使用遗传算法(Evolutionary Algorithm、进化算法)构建优化器获取机器学习模型最优超参数组合、拟合最佳模型、实战+代码
Python使用遗传算法(Evolutionary Algorithm、进化算法)构建优化器获取机器学习模型最优超参数组合、拟合最佳模型、实战+代码原创 2022-11-14 08:44:34 · 617 阅读 · 0 评论 -
Python使用灰狼算法(Grey Wolf Optimization (GWO) Algorithm)构建优化器获取机器学习模型最优超参数组合、拟合最佳模型、实战+代码
Python使用灰狼算法(Grey Wolf Optimization (GWO) Algorithm)构建优化器获取机器学习模型最优超参数组合实战+代码原创 2022-11-23 08:51:33 · 672 阅读 · 1 评论 -
Python使用模拟退火(Simulated Annealing)算法构建优化器获取机器学习模型最优超参数组合(hyperparameter)实战+代码
Python使用模拟退火(Simulated Annealing)算法构建优化器获取机器学习模型最优超参数组合(hyperparameter)实战+代码原创 2022-11-13 09:35:55 · 922 阅读 · 0 评论 -
Python使用bayesian-optimization包的BayesianOptimization算法构建贝叶斯优化器获取机器学习模型最优超参数组合实战+代码
Python使用bayesian-optimization包的BayesianOptimization算法构建贝叶斯优化器获取机器学习模型最优超参数组合实战+代码原创 2022-11-16 09:24:02 · 658 阅读 · 1 评论 -
解决问题:Python使用seaborn可视化热力图heatmap、旋转X轴刻度文本标签45度后、发生文本平移、重叠问题解决
解决问题:Python使用seaborn可视化热力图、旋转X轴刻度文本标签45度后、发生文本平移、重叠问题解决原创 2022-11-15 08:55:30 · 1686 阅读 · 0 评论 -
python基于组合逻辑判断替换numpy数组中的满足条件的元素、相等判断替换numpy数组中的指定数值为另一个数值、大小判断替换numpy数组中大于指定阈值的数值为另一个值
python基于组合逻辑判断替换numpy数组中的满足条件的元素、相等判断替换numpy数组中的指定数值为另一个数值、大小判断替换numpy数组中大于指定阈值的数值为另一个值原创 2022-11-17 09:04:17 · 503 阅读 · 0 评论 -
python使用numpy中的equal函数比较两个numpy数组中每个位置的元素是否相同、并计算相同元素的比例
python使用numpy中的equal函数比较两个numpy数组中每个位置的元素是否相同、并计算相同元素的比例原创 2022-11-21 07:53:18 · 1645 阅读 · 0 评论 -
python使用NiBabel包加载.nii标记mask文件、统计两个标注员标注的mask掩码文件的重合度有多高(对应位置的元素相同则为1,否则则为0)
python使用NiBabel包加载.nii标记mask文件、统计两个标注员标注的mask掩码文件的重合度有多高(对应位置的元素相同则为1,否则则为0)原创 2022-11-20 09:15:01 · 491 阅读 · 0 评论 -
python使用NiBabel包加载.nii文件、使用opencv加载jpg原图图像并转化为灰度图、最后比较原图和mask掩码图的形状是否一致
python使用NiBabel包加载.nii文件、使用opencv加载jpg原图图像并转化为灰度图、最后比较原图和mask掩码图的形状是否一致原创 2022-11-18 08:58:35 · 599 阅读 · 0 评论 -
python基于图像的掩码、mask信息获取病灶区域ROI最小外接矩形坐标位置、opencv基于掩码最小外接矩形坐标剪裁原图(crop image by mask rectangle)
python基于图像的掩码、mask信息获取最小外接矩形坐标位置、opencv基于掩码最小外接矩形坐标剪裁原图(crop image by mask rectangle)原创 2022-11-22 09:06:42 · 976 阅读 · 0 评论 -
Python使用PIL基于坐标范围批量剪裁(图像)并将剪裁后的图像保存到指定的新文件夹中
Python使用PIL基于坐标范围批量剪裁(图像)并将剪裁后的图像保存到指定的新文件夹中原创 2022-11-08 08:53:38 · 668 阅读 · 0 评论 -
Python使用opencv基于坐标范围批量剪裁(图像)并将剪裁后的图像保存到指定的新文件夹中
Python使用opencv基于坐标范围批量剪裁(图像)并将剪裁后的图像保存到指定的新文件夹中原创 2022-11-07 09:10:10 · 630 阅读 · 0 评论 -
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表、设置expand参数将拆分结果列表内容转化为多列数据并添加到原数据中、replace函数基于正则表达式替换字符串数据列中的匹配内容
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表、设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中、replace函数基于正则表达式替换字符串数据列中的匹配内容原创 2022-11-24 08:36:59 · 398 阅读 · 0 评论 -
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表、设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中、drop函数基于数据列名称删除列
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表、设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中、drop函数基于数据列名称删除指定数据列原创 2022-11-29 08:40:15 · 384 阅读 · 0 评论 -
Pandas使用split函数基于指定分隔符拆分数据列的内容为列表、设置参数n控制拆分的次数、设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中
Pandas使用str属性获取数据列的字符串方法类、split函数基于指定分隔符拆分数据列的内容为列表、设置参数n控制拆分的次数、设置expand参数将拆分结果列表内容转化为多列dataframe并添加到原dataframe中原创 2022-11-02 09:31:48 · 284 阅读 · 0 评论