Pandas十分钟快速入门

Series结构也称为Series序列,是Pandas常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值和一组标签组成,其中标签与数据值具有对应关系
标签不必是唯一的,但必须是可哈希类型的,该对象既支持整数的索引,也支持基于标签的索引,并提供了许多方法来执行涉及索引的操作,ndarray的统计方法已被覆盖,以自动排除缺失的数据(目前表示为NaN)
Series可以保存任何数据类型,比如整数,字符串等等,它的标签默认为整数,从0开始一次递增
创建Series
pd.Series(data=None,index=None,dtype=None,name=None,copy=False)
data——输入的数据,可以是列表,常量,ndarray数组等,如果是字典,则保持参数顺序
index——索引值,必须是可散列的
copy——表示对data进行拷贝,默认为False,仅影响Series和ndarray数据

ar_list = [3,10,3,4,5]
print(type(ar_list))
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

默认的Rangeindex不能使用负值来表示从后往前查找元素,但是可以使用负值来新增元素比如s1[-1]会报错,但是s1[-1]=20就不会报错就会变成赋值操作,可以新增不同类型索引的数据,新增不同索引类型的数据,索引的类型会自动发生变化
使用字典来作为Series就不会生成默认的索引,就会把字典中的key作为索引,value作为值
在使用Series这个方法进行序列化的时候可以使用index传递一个数组来进行显式的创建索引
Series的切片与Python稍微不同,Series使用标签切片的时候是末端也包含,但是使用位置切片的时候和Python一样是末端不包含的。
特殊情况是当位置索引和标签索引刚好一致,使用切片时,如果是数值会认为是Python切片运算,不包含末端
使用head()方法默认能查看前5条数据,但是通过在head()方法中传递一个数值型的参数可以指定为查看具体的条数,tail()方法类似,tail查看的是最后的数据

当创建了Series序列之后可以使用reindex来重新指定索引,还可以使用fill_value属性来指定原来值为NaN的填充值

使用drop()方法来删除Series中的元素,调用drop()方法后会返回删除后的值,原值是默认不改变的,要想要原值发生改变需要使inplace这个属性设置为True,这时候删除的值的位置返回的就是None
添加方法比较简单,直接想好待添加的值和索引,然后直接序列[索引值] = 值即可完成添加功能

DataFrame是Pandas的重要数据结构之一,也是最常用的结构之一
DataFrame是一个表格型的数据结构,既有行标签也有列标签,它也被称为异构数据表。异构指的就是表格中每列的数据类型可以不同,比如可以是字符串,整型,浮点型等等。
DataFrame的每一列数据都可以看成是一个Series结构。与Series一样,DataFrame自带行标签索引,默认为隐式索引,即从0开始依次递增,行标签与DataFrame中的数据项一一对应。
在创建DataFrame的时候可以使用columns这个属性来指明每一列的名称

data = [['xiaoming',20],['Lilly',30],['Anne',40]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(df)

在这里插入图片描述

DataFrame取列直接指明列名即可,要选取多个列可以使用列表的方式指定多个列名,但是注意没办法直接通过标签位置去获取列
使用insert()方法来添加列
可以使用del 或 pop()删除DataFrame中的数据列,pop()有返回值
DataFrame的行操作就不能使用[]这种方法来访问了,行操作需要借助loc()方法来完成,按标签或布尔数组访问一组行或列
使用数据型索引需要使用iloc
添加数据行需要使用append()方法,需要注意在使用的时候如果不指明插入的index也会报错,如果不想指定想让他接着上次的自动递增需要ignore_index这个属性=True
追加列表的时候:
如果list是一维的,则以列的形式追加
在这里插入图片描述

如果list是二维的,则以行的形式追加
如果list是三维的,则只添加一个值
删除数据行可以使用行索引标签,从DataFrame中删除某一行,如果索引存在重复,那么它们将被一起删除。可以使用drop()方法进行删除,drop()方法不会更改原数据

可以使用rename()方法修改标签名
原型:rename(index=None,columns=None,inplace=False)
index:修改后的行标签
columns:修改后的列标签
inplace:默认为False,不改变原数据,返回修改后的数据,True为更改数据源

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Pandas是一个Python库,用于数据处理和数据分析。它提供了两个主要的数据结构:Series和DataFrame。 Series是一个一维数组,它可以存储任意类型的数据。DataFrame是一个二维表格,它由多个Series组成。在DataFrame中,每个Series代表着一列数据。 以下是如何使用Pandas进行数据分析的简单步骤: 1. 导入Pandas库 首先,我们需要导入Pandas库: ```python import pandas as pd ``` 2. 读取数据 使用Pandas读取数据非常容易。Pandas支持读取各种格式的数据,例如CSV、Excel、SQL、JSON等。 CSV文件的读取: ```python data = pd.read_csv('data.csv') ``` Excel文件的读取: ```python data = pd.read_excel('data.xlsx') ``` 3. 观察数据 读取数据后,我们需要观察数据的结构和内容,以便更好地了解数据的特征。 观察数据的前几行: ```python data.head() ``` 观察数据的后几行: ```python data.tail() ``` 观察数据的基本信息: ```python data.info() ``` 4. 数据清洗 在观察数据后,我们需要对数据进行清洗和处理,以便更好地使用。 删除重复行: ```python data.drop_duplicates(inplace=True) ``` 删除缺失值: ```python data.dropna(inplace=True) ``` 5. 数据分析 在对数据进行清洗后,我们可以使用Pandas进行数据分析和统计。 计算数据的描述性统计量: ```python data.describe() ``` 查看数据的相关性: ```python data.corr() ``` 6. 数据可视化 最后,我们可以使用Pandas进行数据可视化,以便更好地展示数据的特征和趋势。 绘制折线图: ```python data.plot() ``` 绘制散点图: ```python data.plot.scatter(x='x', y='y') ``` 以上是Pandas的简单入门介绍,希望对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

leoliyao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值