Pandas

最新推荐文章于 2024-09-15 22:31:42 发布

GoldenFong

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量497

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_50248555/article/details/121353904

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

两个常用的类，Series、DataFrame

Series Series是一种类似于一位数组的对象，由下面两个部分组成

values：一组数据

index：相关的数据索引标签

Series的创建由列表或numpy数组创建由字典创建

from pandas import Series

#由列表创建
s = Series(data=[1,2,3,'four'])

#由numoy一维数组创建
import numpy as np
s = Series(data=np.random.randint(0,100,size=(6,)))

#index用来指定显示索引，显示索引可以增强Series的可读性
s = Series(data=[1,2,3,'four'],index=['a','b','c','d'])

#由字典创建
dic = {
    '语文':100,
    '数学':99,
    '理综':250
}
s = Series(data=dic)

Series的索引和切片

Series的常用属性 shape size index values

s.shape

s.size

s.index#返回索引

s.values#返回值

s.dtype

Series的常用方法 head() tail() unique() isnull() notnull() add() sub() mul() div()

s = Series(data=np.random.randint(0,100,size=(9,)))

s.head(3)#显示前n个数据

s.tail(3)#显示后n个数据

s.unique()#去重

s.isnull()#用于判断每一个元素是否为空，为空返回True，否则返回False

s.notnull()

Series的算术运算
法则：索引一致的元素进行算数运算否则为补空

DataFrame

DataFrame是一个【表格型】的数据结构

DataFrame由按一定顺序列的多列数据组成

设计初衷是将Series的使用场景总一维拓展到多维

DataFrame既有行索引，也有列索引行索引：index 列索引：columns 值：values

DataFrame的创建 ndarray创建字典创建

from pandas import DataFrame

df = DataFrame(data=[[1,2,3],[4,5,6]])

df = DataFrame(data=np.random.randint(0,100,size=(6,4)))

dic = {
    'name':['zhangsan','lisi','wanglaowu'],
    'salary':[1000,2000,3000]
}
df = DataFrame(data=dic)

DataFrame的属性 values、columns、index、shape

DataFrame的索引操作对行进行索引对列进行索引对元素进行索引

df = DataFrame(data=np.random.randint(0,100,size=(8,4)),columns=['a','b','c','d'])

df['a']#取单列，如果df有显示的索引，通过索引机制取行或者列的时候只可以使用显示索引

df[['a','c']]#取多列

#iloc通过隐示索引取行 loc通过显示索引取行
df.iloc[0]#取单行

df.iloc[[0,1,2]]#取多行

df.iloc[0,3]#取单个元素

df.loc[0,'a']

df.iloc[[1,3,5],2]#取多个元素

DataFrame的切片操作对行进行切片对列进行切片

df[0:2]#切行

df.iloc[:,0:2]#切列

DataFrame的运算和Series一样

time的类型转化

dic = {
    'time':['2010-10-10','2011-11-20','2020-01-10'],
    'temp':[33,31,30]
}
df = DataFrame(data=dic)

#查看time列的类型
df['time'].dtype

#将time转化为时间类型
import pandas as pd
df['time'] = pd.to_datetime(df['time'])

#将time列作为源数据的行索引,inplace=True替换源数据
df.set_index('time',inplace=True)