#对于数值变量:使用均值或中位数进行插补。
#对于分类变量:使用常见众数进行插补,这里主要使用众数进行插补空值
df['Gender'].fillna(df['Gender'].value_counts().idxmax(),inplace=True)
df['Gender'].value_counts().idxmax()
df['Gender'].fillna(df['Gender'].value_counts().idxmax(), inplace=True)#如果要改变源数据的话需要添加参数inplace = True才可以改变源数据(也可以用赋值的方式)
df['Married'].fillna(df['Married'].value_counts().idxmax(), inplace=True)
df['Dependents'].fillna(df['Dependents'].value_counts().idxmax(), inplace=True)
df['Self_Employed'].fillna(df['Self_Employed'].value_counts().idxmax(), inplace=True)
df["LoanAmount"].fillna(df["LoanAmount"].mean(skipna=True), inplace=True)#数值计算均值跳过空值
df['Loan_Amount_Term'].fillna(df['Loan_Amount_Term'].value_counts().idxmax(), inplace=True)
df['Credit_History'].fillna(df['Credit_History'].value_counts().idxmax(), inplace=True)
df.info()
https://www.cnblogs.com/king-lps/p/7846414.html
六. 标签编码LabelEncoder
作用: 利用LabelEncoder() 将转换成连续的数值型变量。即是对不连续的数字或者文本进行编号例如:
注意这里LabelEncoder和那种getdummy的区别,其实就是和one-hot的编码区别,那个是根据值有多少个就生成多少个列,每列就一个·1,而这里仅仅是把值变成了数字代表