数据预处理:
当接收到数据以后,我们应该使用print(pdData.describe())观察数据,是否有缺失值,使用pdData.head()方法,去查看有哪些特征值进行数值转换,将字符串变成0,1。
数据缺失:数值型采用均值填充,字符串型采用众数填充。pdData["Age"].fillna(pdData["Age"].median());
数值转换:pdData.loc(pdData["Sex"]=="male","Sex")=0 使用print(pdData["Sex"].unique())查看"Sex"特征值
数据二分类:选择数值型的变量作为特征,判断目标值
线性回归解决问题:
首先导入sklearn库中的LinearRegression和交叉验证cross_validation模块的KFold库
1.创建特征数组 2.获得LinearRegression对象alg 3.利用KFold创建对象,需要传入数据总行数pdData.shape[0]