python数据科学详细代码及注释
文章平均质量分 83
作为自己的备忘,您可以拿来主义
飞时过
这个作者很懒,什么都没留下…
展开
-
利用pythonEM算法和雷达图分析王者荣耀英雄聚类和可视化全代码
今天和大家分享一下我的最大爱好,可想而知一名资深的神经外科主刀医生,被转行做医疗数据,我肯定是个非常内向的人。所以我的最大爱好就是玩王者,感兴趣的可以一起开黑!我的王者号,也叫“飞时过”。今天突然想到,王者本身也是个数字游戏,是非常适合做数据分析的,今天我特意留意了一下,游戏里英雄的各种属性是非常适合做雷达图的,如果王者的运营团队,感兴趣,可以和我合作哦,哈哈,有些自不量力。今天看了吴军老师的《数学之美》,其中对EM算法非常感兴趣,在这本书里是这么表述EM算法的。EM算法只需要有一些训练数据,定义一个最大化原创 2021-11-28 19:59:24 · 1442 阅读 · 0 评论 -
用python跑电商同期群分析(全代码)
各位知友大家好,我是飞时过,电商中的业务分析法,最火爆的就是同期群分析,因为它比二八分析,四象限分析多了时间维度,但就是这个时间维度是最需要大书特写的,因为比如说分析就业后的薪资(我应该算是离群值了,唉),2019年毕业的是没有办法和2018年毕业的在同一时间点进行比较的。这就给数据清洗提出了新的要求,需要在保证存留分析可解析的前提下,最大限度利用好透视表。原创 2021-10-15 14:11:49 · 175 阅读 · 0 评论 -
利用互信息法进行特征选择
各位朋友大家好,今天给大家讲讲互信息。from sklearn.datasets import load_breast_cancer as LBCcancer = LBC()X = cancer['data']y = cancer['target']#计算MI scorefrom sklearn.feature_selection import mutual_info_classif as MICmi_score = MIC(X,y)print(mi_sco原创 2021-09-16 15:14:27 · 1143 阅读 · 0 评论 -
用python做可视化驾驶舱大屏全代码
各位朋友大家好,医院数据显示越来越青睐驾驶舱,这两天我们参考了几个资深的python公共号,模仿制作了一个驾驶舱可视化大屏,把代码在这里保留下来,大家可以随时参考#先是网络爬虫,爬取东京奥运会的数据import requestsimport pandas as pdfrom pprint import pprint#用get(url)获取http信息url = 'https://app-sc.miguvideo.com/vms-livedata/olympic-medal/total-tabl原创 2021-09-13 16:44:13 · 1701 阅读 · 0 评论 -
用python做探索性因子分析(Exploratory Factor Analysis,EFA)全代码
各位朋友大家好,今天把降维中的因子分子和大家分享一下,这里举的例子是探索性因子分析import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osos.chdir(r'G:\Pythoncode\Machine-Learning-Exercises-master\12.Factor Analysis')with open('Standford.txt','r') as file: heade...原创 2021-09-03 09:10:15 · 1094 阅读 · 0 评论 -
稳健回归(Theil Sen回归,RANSAC回归,Huber回归)全代码
今天给大家带来了稳健回归。这个命题源自我的博士同学,他在北京的儿科,和我问道,线性回归太不稳定,离群值都处理不了,问我有没有可替代的优异一些的方法,方法是有的,因为临床研究离不开连续变量的分析,所以我推荐稳健回归,稳健回归可以看作是多传统的线性回归的改良。这里介绍的稳健回归包括Theil Sen回归,RANSAC回归,Huber回归,怎么样?单凭名字就可以在论文里出彩吧?# linear regression on a dataset with outliersfrom random import原创 2021-08-26 15:20:52 · 1797 阅读 · 0 评论 -
除了“隐变量”还有“隐函数”,高斯过程二分类模型全代码
高斯过程是一个无限维的高斯分布。The way that examples are grouped using the kernel controls how the model “perceives” the examples, given that it assumes that examples that are “close” to each other have the same class label.rbf = ConstantKernel(1.0) * RBF(length_sca原创 2021-08-25 17:48:47 · 179 阅读 · 0 评论 -
用python做文献计量学全代码
各位朋友大家好,今天给大家带来文献计量学的知识和全代码,文献计量学是属于一门边缘学科,交叉科学。我在网上浏览了一下,用R和专属工具做的已经有老师进行了展示,python的还没有所以在这里给大家一个全面的展示下面把全代码给大家:import metaknowledge as mkimport pandasimport matplotlib.pyplot as pltimport seaborn as sns#%matplotlib inlineget_ipython().原创 2021-08-22 18:06:36 · 1727 阅读 · 1 评论 -
临床研究中利用sklearn做二分类和多分类ROC曲线(python全代码)
各位朋友大家好,我是环湖医院的医生飞时过,老生常谈的问题,但我觉得有必要谈清楚。首先说说混淆矩阵。在生成的混淆矩阵中,我觉得对于医疗环境来讲最有用的是敏感性(sensitivity),敏感性也要真阳性,也称之为召回率。因为敏感性表示的是所有真实是阳性的患者中被发现是阳性的概率,医生看的就是病,就像新冠一样,发现阳性是最重要的。假阴性和真阳性相辅相成,我们希望预测分类的结果应该是真阳性高和假阴性低。特异性也叫真阴性,它的意思是这个模型能发现的真正健康人的概率。假阳性...原创 2021-08-17 11:15:58 · 554 阅读 · 0 评论 -
利用python计算相关系数和方差膨胀因子(全代码)
各位朋友大家好,我是环湖医院的医生飞时过,今天好几个医生问我,关于机器学习怎么处理共线性的问题,其实这个问题首先是要明确构建模型的目的,如果是预测的话,是不需要刻意去考虑的,假如您构建模型是为了看不同的自变量对因变量的影响,那就要考虑共线性了。今天把计算相关系数和方差膨胀因子的全代码给大家。import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#sklearn内置数据集的导入from sklearn.data原创 2021-08-16 11:08:48 · 1158 阅读 · 0 评论 -
奥运会大数据分析(全代码)——巧用python柱状图进行历届奥运会数据可视化
各位朋友大家好,东京奥运会在疫情的加持下落下了帷幕,中国队取得了国外奥运的最佳成绩,看着CCTV5和CCTV5+的精心转播,我看到的除了运动健儿的拼搏精神,还有就是每天产生的数据,抛砖引玉我搜集了1976年到2008年北京奥运会的数据,通过python的matplotlib,seaborn和pandas.plot,以柱状图的形式给大家展示一下,奥运数据的分析,希望大家拿到东京奥运会的数据也可以做出类似的分析。我们从最基本的可视化方法讲起,让大家渐入佳境!文章最后把数据的下载链接给大家,可以实践跑跑。原创 2021-08-09 16:53:44 · 2416 阅读 · 0 评论 -
搜集临床日常数据利用python进行心脏病的预测(全代码)
各位朋友大家好,数据科学对于临床医生来讲是仅次于手术刀,听诊器的工作利器,希望大家都能掌握一些基本的数据科学知识,利用临床上随处可见的数据就能做一个很好的机器学习的项目。我们这次利用KNN, logistic回归,SVM,决策树,随机森林,xgboost和神经网络,给大家做临床数据机器学习的项目。这些患者的性别,年龄,舒张压,收缩压等等在临床上随处可见,非常适合做数据科学研究。import pandas as pdimport numpy as npimport seaborn as s.原创 2021-08-08 11:24:15 · 870 阅读 · 1 评论 -
全代码python深度挖掘生物医学信号数据:人工智能识别异常心电图(同时跑出27个机器学习模型和深度学习模型)
各位朋友大家好原创 2021-07-30 16:45:06 · 1460 阅读 · 0 评论 -
利用python深度学习神经网络预测五年内糖尿病的发生(全代码)
各位朋友大家好,今天我们做一个深度学习神经网络的项目,预测五年内糖尿病的发生。神经网络但凡入门数据科学的人都知道,我觉得叫神经网络是从仿生学角度的命名,从数据科学角度我更喜欢称它为多层感知机(multi-layer perceptron)。对于初学者来讲,我们是首先推荐使用keras库的,因为keras的代码易懂性强,比TensorFlow更容易书写。这个项目用到的数据是糖尿病数据集,我在写代码时会把数据链接发给大家。import osimport pandas as pdos.chdir(r"G:原创 2021-07-23 15:17:12 · 2569 阅读 · 3 评论 -
利用python机器学习受试者声音数据早期发现帕金森病(全代码)
这篇文章的主要目的是了解什么是帕金森病,并探讨如果采用机器学习受试者声音数据的方法早期发现该病。我们将在这里使用 XGBoost、KNN 算法、支持向量机 (SVM)、随机森林算法,并利用著名的帕金森声音资料数据集进行全代码演示,数据集下载链接在代码开始之初给大家粘贴过去。帕金森病是一种脑神经系统退行性疾病,是天津市环湖医院常见的脑系科专病之一。它会导致身体和手的颤抖,并使身体变得僵硬。疾病发展到晚期目前还有明确的治愈手段。所以对于疾病的早期发现显得非常重要。早期发现帕金森病不仅可以降低疾病的成本,还可原创 2021-07-23 13:24:32 · 1906 阅读 · 0 评论 -
用python进行数据特征工程全代码流程,所学即所用
首先说一下为什么要做特征工程?总的来说机器学习算法就是用输入的数据来推算输出的数据。输入的数据包含以下特征,这些特征是以行列矩阵的列来表示,算法需要具有特定形式的特征作为输入才能更好地发挥作用,模型的表现才能达到最佳,所以我们要对输入的特征进行一些列的操作,这个过程就是特征工程。在这篇文章里我利用Python把主要的特征工程技术通过全代码的形式,给大家做一个分享。首先是缺失值的处理1、删除缺失值缺失值是机器学习对真实世界数据进行处理时最常见问题之一。人为错误、数据流中断、隐私问题和其他因素可能是原创 2021-07-22 11:36:22 · 1002 阅读 · 0 评论 -
利用python自然语言处理构建机器学习模型预测网络虚假新闻(logistic,贝叶斯,决策树,增量学习模型)
各位学友大家好,今天给大家带来利用Python构建机器学习模型,进行文本数据的预测分析,实例采用了kaggle上的数据集,方便大家下载:https://www.kaggle.com/c/fake-news/data?select=train.csv。这个数据集是通过搜集网络新闻来训练出能识别新闻是否真实的一个文本分析模型。python具有对文本数据强大的处理能力,本项目从处理流程来讲大体分为,文本数据导入,文本数据处理,词向量矩阵转化,机器学习模型构建及模型评价这几个步骤。其中文本数据处理的目的是为了满足构原创 2021-07-21 14:29:32 · 694 阅读 · 0 评论 -
python机器学习的范式流程详细代码(以随机森林为例)
各位朋友大家好,今天开始和大家一起学习python机器学习,初学的老师在数据科学领域往往会问学习R语言好,还是python好这个经久不衰的问题。我的建议是R语言的优点是它的灵活性和代码的简洁性,但正是由于上面的优点使得它的代码可读性不高。而python则是公认的胶水语言,虽然也很简洁灵活,但是从代码的书写量来讲相对于R语言来讲是多的,但它的易懂性是R无法匹敌的,以上这些特点就决定了两者相辅相成的结论。做统计,做机器学习倾向于R语言,而做深度学习则倾向于python。当然两者在做数据清洗时是不相上下的,R有成原创 2021-07-20 14:43:02 · 120 阅读 · 0 评论