python中的数据框中常见操作
1.dataframe转变为array
df.values
2.数据标准化
X = preprocessing.scale(X)
3.数据框中删除列
df.drop(['a', 'b'], 1, inplace=True)
4.把数据框中的字符串映射为数字
例如{female:1, male:0}
df_map = {}
cols = df.columns.values
for col in cols:
if df[col].dtype != np.int64 and df[col].dtype != np.float64:
temp = {}
x = 0
for ele in set(df[col].values.tolist()):
if ele not in temp:
temp[ele] = x
x += 1
df_map[df[col].name] = temp
df[col] = list(map(lambda val: temp[val], df[col]))
5.划分列为自变量和因变量
data= pd.read_csv('/Users/rb/Desktop/数据.csv')
wn0=data.columns
wn=wn0[0:]
X=data[wn[0:21]]#选择前20个作为自变量
y=data[wn[21]]#选择因变量
6.把数据另存为桌面的xlsx格式