数据挖掘
濯君
求知,内敛,有趣,勤静
展开
-
数据挖掘--数据预处理(1)
import pandas as pdtrain_pd = pd.read_csv(path+'training.csv') #读取数据test_pd = pd.read_csv(path+'sorted_test.csv')train_pd.info()#查看数据类型train_pd.describe()#数值型变量的统计信息train_pd.describe(include=['...原创 2019-05-03 12:02:31 · 925 阅读 · 0 评论 -
数据挖掘——数据预处理(2)
#统计缺失值train = pd.read_csv("train.csv")null_columns=train.columns[train.isnull().any()]train[null_columns].isnull().sum()原创 2019-06-07 19:49:24 · 457 阅读 · 0 评论 -
机器学习算法模型特点总结
1.回归问题可以使用的模型Linear and Polynomial Regression,Neural Networks,Regression Trees,Random Forests,Support Vector Regression,Naive Bayes2.KNeighborsClassifier特点:解决分类问题;neighbors的值设的越小,模型越复杂,方差大;nei...原创 2019-08-30 22:01:35 · 1455 阅读 · 0 评论 -
数据挖掘(数据预处理,特征工程)
1.StandardScaler确保处理后的特征均值为0,方差为1,但是不确保特征任何特定的最大,最小值2.RobustScaler与StandardScaler类似,确保所有特征scale在同一规模,但是使用属性median,quartiles,忽视outliers的影响3.MinMaxScaler将特征值范围scale到0,14.Normalizer将数据点映射到半径为1的圆;...原创 2019-09-01 20:05:44 · 339 阅读 · 0 评论 -
Kaggle--处理缺失值
一:按缺失百分比去除缺失值过多的特征#缺失超过77%的特征被去除many_null_cols = [col for col in train_x.columns if train_x[col].isnull().sum() / train_x.shape[0] > 0.77]many_null_cols_test = [col for col in test.columns if te...原创 2019-09-05 11:49:00 · 682 阅读 · 0 评论