Numpy-pandas


import pandas as pd#导入pandas
print(pd.__version__)#查看pandas版本信息

pandas的数据结构可以分为:

  1. Series(一维数组)
    #一维带标签的数组,可以通过标签定位数据。
    #可以看作是一列数据组成的数据集
  2. DataFrame(二维数组)
    #二维带标签的数组,可以通过标签定位数据。
  3. Panel(三维数组)
  4. Panel4D(四维数组)
  5. panelND(多维数组)

series

可以看作是一列数据组成的数据集

创建series数据类型

s=pd.Series(data,index=index)

  1. 从列表创建Series
import pandas as pd
list1=[0,1,2,3,4]
s1=pd.Series(list)
  • 若不指定索引index,默认从0开始
  1. 从Ndarray创建Series
import numpy as np
import pandas as pd
data=np.random.randn(5) #一行五列的array
index1=['a','b','c','d','e']
s2=pd.Series(data,index=index1)
  1. 从字典创建Series
import numpy as np
import pandas as pd
dic={'a':1,'b':2,'c':3,'d':4,'e':5}
s3=dp.Series(dic)

从字典创建Series,就不需要index了

Series基本操作

  1. 修改Series索引
    series1.index=['index1','index2',···]
  2. 纵向拼接
    series3=series2.append(series1)#将s1拼接到s2
  3. 按照索引删除元素
    series1=series1.drop('index')
  4. 修改指定索引的元素
    series1['index']=
  5. 按索引查找元素
    series1['index']
  6. 切片
    series[a:b]

Series运算

加法减法乘法除法求中位数求和求最大值求最小值
s2.add(s1)s2.sub(s1)s2.mul(s1)s2.div(s1)s3.median()s3.sum()s3.max()s3.min()

DataFrame

在索引和数据的基础上,又增加了列名

创建DataFrame数据类型

df1=pd.DataFrame(data,index,columns)
df1.dtypes
2. 从Ndarray创建DataFrame

import numpy as np
import pandas as pd
n_arr=np.random.randn(6,4) #五行四列的array
dates=pd.date_range('today',period=6) #定义时间序列作为index
columns=['a','b','c','d'] #将列表作为列名
df1=pd.DataFrame(n_arr,index=dates,columns=columns)
  1. 从字典创建DataFrame
import numpy as np
import pandas as pd
dic={'animal':['cat','dog','cat','cat'],'age':[1,3,5,2],'visits':[1,3,2,1],'priority':['yes','yes','no','no']}
labels=['a','b','c','d']
df1=dp.DataFrame(dic,index=labels)

从字典创建DataFrame,需要index,但是不需要Column了

DataFrame基本操作

  1. 预览前5行
    df1.head(num)#num为预览的行数,不填默认前5行

  2. 查看后3行
    df1.tail(3)

  3. 查看索引
    df1.index

  4. 查看列名
    df1.columns

  5. 查看数值
    df1.values

  6. 查看统计数据
    df1.describe()

  7. 转置
    df1.T

  8. 按列排序
    df1.sort_values(by='age')

  9. 切片
    df1[a:b:c]

  10. 通过标签查询(单列)
    df1['column']

  11. 通过标签查询(多列)
    df1[['column1','column2']]

  12. 通过位置查询
    df1.iloc[a:b]#包前不包后的行数

  13. 副本拷贝

  14. 判断元素是否为空

  15. 添加列数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值