r数据预处理
Missing Data
1. .isnull() 查找缺失的数据,输出为布尔型,如果是真,就输出它的数量
from pandas import read_csv
import numpy as np
dataset = read_csv('pima-indians-diabetes.csv', header=None)
#print(dataset.describe())
print(dataset.head(20))
print(dataset.isnull().sum())
如果sum的结果特别大,需要进行处理,否则会影响数据处理的效果
2. 处理option1 - 用0替换
dataset[[0,2,3,4,5,6]] = dataset[[0,2,3,4,5,6]].replace(np.NaN,0)
3. 处理option2 - 移除改行数据
如果确实的数据行不是很多的话可以这样操作
dataset.dropna(inplace=True)
ps: inplace=True 表示,表中的原始数据会被替换,false则不会(参考resize和reshape)。如果不写,默认为false
4. 处理option3 - 用平均值mean value替换
dataset.fillna(dataset.mean(), inplace=True)
Normalization 归一化
不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到