pandas初级篇
1 pandas数据
panadas加载完成之后的数据类型为DataFrame,如果对DataFrame进行查询后,其结果转变为Serise类型
如果要求了解不深的话可以简单的把DataFrame理解成为一个表格
Serise理解成为只有一列的表格
当我们利用pandas从数据库,csv文件等读出来的数据都是DataFrame类型,如果对DataFrame进行查询,只要查询结果多余1列,那么查询出来的类型就是DataFrame类型,如果是单列,则类型为Serise类型
2 DataFrame属性和方法
import pandas as pd
data = pd.read_csv('./datas/train.csv')
这种数据结构就是二维表结构,当然这里的二维说的是表,很多时候我们把表里面的字段也称为维,这个维是在数据分析里面说的,很多时候数据里面每一个字段就是一个属性,或者说一个特征,有时候也会看到某个对象存在N个维,这里的维通通说的是字段
要区分其实很容易,只需要记住在空间上说的维其实是只坐标轴,二维空间就x,y轴,表示平面,三维空间xyz轴,三个轴,表示立体,4维空间甚至更高的维,在我们现实生活中难以用图像来表示,只有通过数学方式进行表示,所以高纬空间通常都是偏向数学方向的表示
属性
values index columns dtypes size ndim shape T
data.values
表示直接将数据转变成为numpy的ndarray类型数据,只要经过这一步操作之后,返回的数据就可以直接使用numpy的方法进行各种变化
data.index
不要看到index就以为是把所有的列名列出来,实际上DataFrame存在两个索引,行索引和列索引,可以想象成为就是二维数据表的行列索引,这里的index打出来的是行,而且显示的不是所有数据,现实的是一个统计结果,当然这是你没有自定义行索引的情况
比如数据库里面的数据,行就表示每一条记录,实际上我们这里的行显示的就像
RangeIndex(start=0, stop=891, step=1)
这种结果,很好读,从0开始到891结束,步长为1
data.columns
数据库里面col经常简写为列,很显然这个查出来的就是列索引,对应到数据库里面就是字段名
data.dtypes
表示查询出所有列对应的数据类型,这里一目了然,非常方便
data.size
这个查出来的结果为存在多少个元素,因为是二维表格,行乘以列就是元素总的个数
data.shape
很熟悉,这个就是指的形状
data.ndim
这个是查询维度,因为我们经常在数据或者excel,或者csv格式读取出来的数据,这些通常都是二维表格,所以查询出来是2,但是不排除后面对data进行处理过后,进行更高维度的拼接或者添加高维度索引,想象一下,既然列表里面可以再放列表,那么data中元素就只能是数值或者字符串么?
data.T
很像numpy中的ndarray.T一样,对二维表进行转置,将列变成行,行变成列
data.字段