请从上一个博客下载我们需要处理的数据。
一、复习常用的函数:
import pandas as pd
import numpy as np
import matplotlib as mt
#载入库
from pandas import Series,DataFrame
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
print(data[['sex','day','time']].describe())
#获得数据
# sex day time
#count 244 244 244 有多少条
#unique 2 4 2 有几种类型的
#top Male Sat Dinner 出现最多的数据
#freq 157 87 176 出现最多的数据出现了多少次
#这里给大家讲一个函数,可能有些小伙伴这里不明白
print(data.loc[:,['sex']])
sex
0 Female
1 Male
2 Male
3 Male
4 Female
.. ...
239 Male
240 Female
241 Male
242 Male
243 Female
表示所有的行sex列拿出来。:代表所有的
复习:咱不能只学不复习哈。会忘的。
索引
1.拿某一列,data['sex'],或者按照切片的方法data[0:3]。
2.按照地图的方法找: data.at[1,'time']拿到第一行time的数据,data.iat[1,1]拿第一行第一列的数据。这个方法只能拿一个数据。
3.按地图拿一块数据:data.loc[:,['sex']]拿所有行sex的数据,data.iloc[0:1,0:3]范围是第1行和1,2,3列。
le=DataFrame({
'id':[1,2],
'mas':['hello','car']
})
re=DataFrame({
'id':[1,2],
'mas1':['no','train']
})
合并的方法:
1.d3=pd.concat([d1,d2])把d1,d2合成一个序列
2.pd.merge(le,re,on='id')通过id合成了一个数据
id mas mas1
0 1 hello no
1 2 car train
排序的方法:
1.data.sort_values('tip')根据tip的大小排序
2.data.sort_values(['tip','total_bill'])如果tip相同就按照total_bill排序
3.data.sort_values(['tip','total_bill'],ascending=[True,False])第一个是升序第二个是降序,ascending等于True是升序,等于False是降序。
分组:我们希通过sex当作指标把每组的数据进行相加。
data.groupby('sex'