2020/11/2
Pandas
numpy 能帮我们处理数组,数值。但是像字符串,时间序列等只能用Pandas来处理。 所以来说pandas 是全能型的,除了处理数值之外(这其实是基于numpy的),还能处理其他类型的数据。
常用的数据类型
-
Series 一维的,带标签的数组(其实就是索引,可以被改变)
-
DataFrame 二维的,Series容器
Series 建立
import pandas as pd
t = pd.Series([1, 2, 3, 4, 5, 6])
print(t)
#改索引
t2 = pd.Series([1, 22, 33, 56], index=list(string.ascii_uppercase[:4]))
print(t2)
#通过字典建立series
temp_dic = {"name": "jack","age":"30","city":"town"}
t3 = pd.Series(temp_dic)
#选取和切片操作
t3["age"] 通过键值来取
t3[0] 通过索引
t3[:3] 通过索引切片
t3[[0,2]] 选择不同行的值
t3[["age","name"]] #通过键值选择不同行的值 如果没有键值的话 就显示NAN
#选择出索引和值
t3.intdex
t3.values
type(t3.value) #为numpy.ndarray
Series对象本质是由两个数组组成的
一个数组构成对象的键,一个数组构成对象的值
ndarray 的很多方法可以运用在series 类型 比如argmax,clip