Pandas的常见基本使用方法操作

什么是Pandas?

Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。

Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。

  • 一个强大的分析和操作大型结构化数据集所需的工具集

  • 基础是NumPy,提供了高性能矩阵的运算

  • 提供了大量能够快速便捷地处理数据的函数和方法

  • 应用于数据挖掘,数据分析

  • 提供数据清洗功能

  • Series和DataFrame中的索引都是Index对象,索引对象不可变,保证了数据的安全

  • Index对象种类Index,索引;Int64Index,整数索引;MultiIndex,层级索引;DatetimeIndex,时间戳类型

Pandas有两个最主要也是最重要的数据结构: Series 和 DataFrame

import pandas as pd             # 导包

Duang!!!!》》》》请参考: Pandas的常用操作大全 https://blog.csdn.net/weixin_44695969/article/details/97039159

Series

Series是一种类似于一维数组的 对象,由一组数据(各种NumPy数据类型)以及一组与之对应的索引(数据标签)组成。

  • 类似一维数组的对象
  • 由数据和索引组成
    • 索引(index)在左,数据(values)在右
    • 索引是自动创建的

1. Series的创建

操作代码实现返回值说明

通过list构建Series

pd.Series(range(10))新Series自动生成索引
pd.Series(range(3), index = ['a', 'b', 'c'])新Series自定义索引

通过dict构建Series

pd.Series(dict)新Seriesdict的key为索引,value为元素

2. Series的相关操作

操作代码实现返回值说明
获取前n行数据series.head(3)新Series获取前三行,默认获取前五行
获取后n行数据series.tail(3)新Series获取后三行,默认获取后五行
获取indexseries.indexRangeIndex获取index
获取valuesseries.valuesndarray一维数组获取所有values
运算series * 2新Series索引与数据的对应关系不被运算结果影响
series > 15新Series(bool) 
name属性对象名series.name新Series 
对象索引名series.index.name新Series 
利用index取值series[index]
series['b']
对应的value值 
利用index切片series[2:4]
series['b':'d']
新Series按索引名切片操作时,是包含终止索引的
不连续索引series[[0,2,4]]
series[['b','d']]
新Series注意是双层中括号[[…,…,…,]]
布尔索引series1 = series > 2
series2[series1]
新Series 

DataFrame(Series容器)

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值。DataFrame既有行索引也有列索引,它可以被看做是由Series组成的字典(共用同一个索引),数据是以二维结构存放的。

  • 类似多维数组/表格数据 (如,excel, R中的data.frame)
  • 每列数据可以是不同的类型
  • 索引包括列索引和行索引

1. DataFrame的创建

操作代码实现返回值说明

通过ndarray构建DataFrame

pd.DataFrame(array)

pd.DataFrame(np.random.randn(4,3), columns = ['a', 'b', 'c'])

新DataFrame

通过多维数组(二维)构建DataFrame,自动生成行索引和列标签(列索引)

columns 指定列索引名

通过dict构建DataFrame

pd.DataFrame(dict)新DataFramedict的key为列标签,value为元素,自动生成行索引
dict = {'A': 1, 
            'B': pd.Timestamp('20190616'),
            'C': pd.Series(1, index=list(range(4)),dtype='float32'),
            'D': np.array([3] * 4,dtype='int32'),
            'E': ["Python","Java","C++","C"],
            'F': 'tiger' }

2. DataFrame的相关操作

操作代码实现返回值说明
获取前n行dataframe.head(3)新DataFrame获取前三行,默认获取前五行
获取后n行dataframe.tail(3)新DataFrame获取后三行,默认获取后五行

shape

dataframe.shape元组返回dataframe形状
获取indexdataframe.indexRangeIndex获取index

columns

dataframe.columnsRangeIndexDataFrame的列索引列表
获取valuesdataframe.valuesndarray二维数组获取所有values
获取列数据dataframe['A'] <=> dataframe.A新Series通过列索引获取列数据
dataframe[['A']]新DataFrame(只有一列)注意是双层中括号[[…,…,…,]]
增加列数据dataframe['G'] = series
dataframe['G'] = dataframe['A'] + 4
新DataFrame类似Python的dict添加key-value
删除列数据del(dataframe['G'])None 
不连续索引dataframe[['a','c']]新DataFrame注意是双层中括号[[…,…,…,]]

 

 

  • 21
    点赞
  • 101
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值