weixin_44322234
这个作者很懒,什么都没留下…
展开
-
Use Machine Learning to Predict U.S. Opioid Prescribers with Scikit Learn
This Code Pattern will focus on and guide you through how to use scikit learn and python to predict opioid prescribers based off of a 2014 kaggle dataset.In this notebook, we explore the dataset opio...原创 2020-04-12 16:00:40 · 502 阅读 · 0 评论 -
心脏病预测-----集成学习xgboost
一、问题背景利用集成学习xgboost实现心脏病预测。二、数据集分析数据集地址:https://www.kaggle.com/ronitf/heart-disease-uci数据集中一共有303个样本,共有14个特征,特征描述如下:属性含义age年龄sex性别 1=male,0=femalecp胸痛类型(4种) 值1:典型心绞痛,值2:非典型心绞痛,值3:非心绞痛,值4:无症状trestbps静息血压chol血清胆固醇fbs空腹血糖原创 2022-01-08 10:44:40 · 818 阅读 · 1 评论 -
基于LCIS数据集的决策树与逻辑回归模型对比
基于LCIS数据集的决策树与逻辑回归模型对比1、读取数据# 导入相关的包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 设置绘图的字体plt.rcParams['font.sans-serif']=['SimHei']\#这两句作用为防止中文乱码【;plt.rcParams['axes.unicode_minus']=False# 导入数据data原创 2021-06-01 17:19:35 · 331 阅读 · 0 评论 -
XGB模型可解释性SHAP包实战
可解释机器学习在这几年慢慢成为了机器学习的重要研究方向。作为数据科学家需要防止模型存在偏见,且帮助决策者理解如何正确地使用我们的模型。越是严苛的场景,越需要模型提供证明它们是如何运作且避免错误的证据SHAP是Python开发的一个"模型解释"包,可以解释任何机器学习模型的输出。其名称来源于SHapley Additive exPlanation,在合作博弈论的启发下SHAP构建一个加性的解释模型,所有的特征都视为“贡献者”。对于每个预测样本,模型都产生一个预测值,SHAP value就是该样本中每个特.原创 2021-03-23 14:51:16 · 863 阅读 · 0 评论 -
心脏病分类预测--逻辑回归
一、问题背景利用逻辑回归算法实现心脏病预测。二、数据集分析数据集地址:https://www.kaggle.com/ronitf/heart-disease-uci数据集中一共有303个样本,共有14个特征,特征描述如下:属性含义age年龄sex性别 1=male,0=femalecp胸痛类型(4种) 值1:典型心绞痛,值2:非典型心绞痛,值3:非心绞痛,值4:无症状trestbps静息血压chol血清胆固醇fbs空腹血糖 >原创 2021-03-21 17:30:09 · 2890 阅读 · 3 评论 -
宫颈癌预测--随机森林
一、问题背景利用集成学习算法之一,随机森林实现宫颈癌数据集的多分类问题。二、数据集分析宫颈癌数据集下载地址为:http://archive.ics.uci.edu/ml/datasets/Cervical+cancer+(Risk+Factors)宫颈癌数据集中一共有858个样本,共36列数据,目标有4个目标值:Hiselmann、Schiller、Citlolgy、Biopsy数据集中有部分缺失值,用“?”标出| 类型|属性|含义|| ------ | ------ ||int| Ag原创 2021-03-21 16:45:59 · 2141 阅读 · 8 评论 -
乳腺癌良恶性预测--逻辑回归
一、问题背景利用机器学习算法实现乳腺癌数据集的二分类问题,良恶性乳腺癌肿瘤预测。二、数据集分析乳腺癌数据集下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/乳腺癌数据集中一共有699个样本,共11列数据,每个样本有10个特征和1个对应的标签包含16个缺失值,用”?“标出属性含义Sample code number索引IDClump Thic原创 2021-03-17 19:10:23 · 641 阅读 · 0 评论 -
糖尿病预测--KNN算法
一、问题背景利用机器学习算法实现糖尿病数据集的二分类问题。二、数据集分析糖尿病数据集中一共有768个样本,每个样本有8个特征和1个对应的标签属性含义Pregnancies怀孕次数Glucose葡萄糖测试值BloodPressure血压SkinThickness皮肤厚度Insulin胰岛素BMI身体质量指数DiabetesPedigreeFunction糖尿病遗传函数Age年龄Outcome糖尿病标签,1表示有糖原创 2021-03-17 17:06:40 · 1800 阅读 · 0 评论 -
鸢尾花数据集分类--KNN算法
一、问题背景利用机器学习算法构建模型,根据鸢尾花的花萼和花瓣大小,区分鸢尾花的品种。实现一个基础的三分类问题。二、数据集分析Iris 鸢尾花数据集内包含 3 种类别,分别为山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。数据集共 150 条记录,每类各 50 个数据,每条记录有花萼长度、花萼宽度、花瓣长度、花瓣宽度4项特征,通过这4个特征预测鸢尾花卉属于哪一品种。iris数据集包含在sklearn库当中,具体原创 2021-03-17 15:58:01 · 1203 阅读 · 0 评论