1、读取csv文件并制定id列,即行索引
data = pd.read_csv('./case_info.csv', index_col='id')
data = pd.read_csv('f:/ceshi.csv',header=None,names=range(2,5))header表明原数据是否有列索引,names指定列名是2,3,4
header=0,表示文件第0行(即第一行,python,索引从0开始)为列索引,这样加names会替换原来的列索引,默认header=0,如果指定header=None,则添加0,1,2,3的列索引
2、删除某一列或几列
data = data.drop(['A', 'B'], axis=1)
3、缺失值填充
data['A'] = data['A'].fillna('无')
df['Age'] = df['Age'].fillna(df['Age'].mean()) # 用平均值填充空值
df['Embarked'] = df['Embarked'].fillna( df['Embarked'].value_counts().index[0]) # 用数量最多项填充
4、将dataframe的列进行拆分,并将object类型的属性转换为float
data['案发定位经度'] = data['案发定位'].str.split(',', expand=True)[0].astype('float') # 经度纬度用,分隔
data['案发定位纬度'] = data['案发定位'].str.split(',', expand=True)[1].astype('float')
5、写入csv
data.to_csv('./case1.csv', index=True, sep=',')
6、删除dataframe的某行
删除某一行,在上面删除列操作的时候也稍有提及,如果不加axis=1,则默认按照行号进行删除,例如要删除第0行和第4行:
df = df.drop([0,4])
df = df.drop(0)
将多个list拼接成dataframe
list1 = []
list2 = []
df = pd.DataFrame({'id':list1,'value1':list2})