一、数据结构
1、一维结构
Series创建一维的结构,data后为数据,index后为索引,索引可以使用列表,当不指定索引时,默认为数字从0开始排序。
不指定索引index为默认索引。
2、二维结构
DataFrame创建二维结构,data创建一个二维的数组,index创建行索引,columns创建列索引。
创建出来的表格和Excel类似,有行索引,有列索引。
上面创建行列索引是通过列表创建,我们可以通过字典来创建DataFrame。
创建DataFrame的第二种办法,用字典中的key作为列索引,同理,index可以创建也可以不创建。
二、数据查看
创建二维的DataFrame。
.head(),查看头部的多少行,默认为5行
.tail()查看末尾的多少行,默认5行。
.shape查看形状,.dtypes查看数据类型。
.index查看行索引,因为创建时选择默认,所以行索引为0-99,步长为1的数组。
.columns查看列索引。
.values可以除去行索引和列索引,单独查看数据。
.describe()可以查看数值的汇总统计,如,平均值,标准差,最小值,四分位数等。
四、数据的输入与输出
CSV格式
1、保存成csv格式
.\为保存当前目录下,salary为文件名称,.csv为文件类型。
2、加载csv格式
五、数据选取
1、列获取
获取单个列,df.Python或者df['Python']或者df[['Python']]。
想要获取多列时
2、行获取
行获取使用.loc
多行获取使用
.loc获取行索引是要通过行索引来寻找的,.iloc获取行索引则是通过自然数索引。
通过.iloc索引,下标为1也就对应原来二维数据中的行索引B。
loc和iloc都是先获取行,再获取列。
当我们想要获得B同学的数学成绩时:
使用iloc获取B同学的数学成绩时:
同时,我们也可以运用loc和iloc来进行切片索引,获取一定范围的数据:如我们想要获取A-D同学的Python和Math成绩
当然也可以使用iloc通过数字获取:
3、布尔索引
想要获取Python为130的同学,可以先将等于130的同学当作一个条件给cond,然后个根据花式索引来获取。
我们想获取python成绩在100以上,数学成绩也在100以上的信息: