各位朋友大家好,数据科学对于临床医生来讲是仅次于手术刀,听诊器的工作利器,希望大家都能掌握一些基本的数据科学知识,利用临床上随处可见的数据就能做一个很好的机器学习的项目。我们这次利用KNN, logistic回归,SVM,决策树,随机森林,xgboost和神经网络,给大家做临床数据机器学习的项目。
这些患者的性别,年龄,舒张压,收缩压等等在临床上随处可见,非常适合做数据科学研究。
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import os
os.chdir(r"E:\pythoncode2021\heart")
df = pd.read_csv('heart.csv')
#跑一个可视化
sns.countplot(df['target'])
#确定自变量和因变量,注意做模型一般场景都是用整理好的数据的array格式做
x= df.iloc[:,0:13].values
y= df['target'].values
#划分数据集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test= train_test_split(x, y, test_size= 0.25, random_state=0)
#进行数据的标准化
from sklearn.preproc