本章导读
目录
一,对象的创建
1.1 pandas series对象
serise 是带标签数据的一维数组
1.1.1 用列表创建
如果定义的时候数据类型是缺省的,则根据元素自动判断
数据支持多种类型
数据可以强制改变
如果不能强制转换,比如最后一个列子,就会报错
1.1.1 用一维numpy数组创建
1.1.2 用字典创建
1.2 Pandas DataFrame对象
1.2.1 通过series对象创建
有行标签,没有列表签,默认为0,1……,
解决方法,起一个列的名字
1.2.2通过series对象字典创建
第二个创建了一个字典
1.2.3 通过字典列表对象创建
1.2.4通过numpy二维数组创建
二,DataFrame的性质
2.1 属性
抛弃标签,只要数据
2.2索引
仍然带有标签
2.3 切片
同样 .ilco相对取值也是可以的
分散取值的第一个会报错,但是iloc是可行的
2.4 布尔索引
2.5 赋值
三,数值运算与统计分析
3.1 数据的查看
把第0行第3列设置为NaN
3.2 numoy通用函数同样适用于Pandas
生成30*30的一个矩阵
· 求转置
在建立一个30*30的矩阵
实现矩阵的乘法
广播运算
3.3 新的用法
用fill_value=0 来填充
对每一列求和 对行求和
求最大值的坐标
众数
对于字符串类型
只看abcd与其中某一列的相关系数
行或列方向上的累加
四 ,缺失值处理
4.1 发现缺失值
删除列中全是缺失值的列
.stack 是摊平的作用
这个是求整体的平均值
五,合并数据
这种情况容易引起歧义,为了防止这种歧义,可以用下面这个方式来处理
更改顺序后依然可以合并,电脑自动处理
如果不想抛弃其余城市 ,可以用下面的方法来处理
六,分组和数据透视表
·相当于每行后面分配个数字,按照数字来进行分组
七,其他
知识总结