Pandas模块 (学习笔记)

Pandas的数据结构

Pandas包含以下三种数据结构:系列(Series),数据帧(DataFrame),面板(Panel)。
这些数据结构构建在Numpy数组之上,这意味着它们处理速度很快。

Series:

同种类型数据构成
大小不可变
数据可变

Series:一维数组,与Numpy中的一维array类似,二者与Python基本的数据结构List也很相近。
Series能保存不同种数据类型,字符串、boolean值、数字等。
Series是由相同数据类型组成的一维数组。

DataFrame:

可以由不同的数据类型构成
大小可变
数据可变

DataFrame:二维的表格型数据结构,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。
数据帧(DataFrame)是大小可变的数据结构,每列可以是不同的数据类型(整型、字符串、布尔值等)。

Panel :

可以由不同的数据类型构成
大小可变
数据可变

Panel :三维数组,可以理解为DataFrame的容器。
面板(Panel)可以由不同的数据类型构成的三维数据结构。
Panel是DataFrame的容器。

导包

import pandas as pd
import numpy as np

创建Series

'''
pd.Series(data,index,dtype,copy):
data:数据,可以是序列类型,可以是int
index:索引值必须是唯一的,与data的长度相同,默认为np.arange(n)
dtype:数据类型
copy:是否复制数据,默认为false
打印最左侧为索引,右侧为数据
'''
a=np.array([1,2,3,4,5])
s1=pd.Series(a,index=['a','b','c','d','e'],dtype=np.float32,copy=False)
print(s1)
'''
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
'''

修改数据

print("-------------------")
s1['a']=100
print(s1)
print(a)
'''
a    100.0
b      2.0
c      3.0
d      4.0
e      5.0
dtype: float32
[1 2 3 4 5]#去掉数据类型就会改变[100 2 3 4 5]
'''
'''
copy=true 数据data不会改变,数据S1会改变
copy=false 数据会改变,数据S1会改变
'''

字典创建Series

#字典= {k:v} k:在Series中是index
d1 = {
   'zs':18,'ls':20}
s2=pd.Series(d1)
print(s2)
print(s2['zs'])#18

'''
zs    18
ls    20
dtype: int64
'''

查询

'''
语法:s1[index] 获取单个数据
s1[list] 获取索引中的数据
s1[index1:index2] 获取从第一个索引到第二个索引的数据,左开右闭
数字索引是左开右闭,标签索引是左开右开
'''
#可以使用默认索引’, 也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1=pd.Series(d1)
print(s1['zs'])#使用自定义索引 18
print(s1[0])#使用默认索引 18
print(s1[0:3])#左开右闭
'''
zs    18
ls    20
ww    40
dtype: int64
'''
print(s1[[0,2,3]])
print(s1['zs':'gl'])#左开右开
'''
zs    18
ww    40
gl    20

dtype: int64
--------------------
zs    18
ls    20
ww    40
gl    20
dtype: int64
'''

常用方法

axes 返回Series索引列表
dtype 返回Series的数据类型
emtpy 判断Series是否为空,如果为空,则返回True
values 将Series作为ndarray返回
ndim 返回基础数据的维度数,默认为1
size 返回基础数据中的元素个数
-head()- -返回前n行(观察索引值)。默认数量为5,可以传递自定义数值-
tail() 返回最后n行 (观察索引值)。默认数量为5,可以传递自定义数值
#可以使用默认索引,也可以使用自定义索引
d1 = {
   'zs':18,'ls':20,'ww':40,'gl':20}
s1 = pd.Series(d1)
print(s1.axes)
print(s1.dtype)
print(s1.empty)
print(s1.ndim)
print(s1.size)
print(s1.values)
print(s1.head(3))
print(s1.tail(3))
'''
'''
zs    18
ls    20
dtype: int64
18
[Index(['zs', 'ls', 'ww', 'gl'], dtype='object')]
int64
False
1
4
[18 20 40 20]
zs    18
ls    20
ww    40
dtype: int64
ls    20
ww    40
gl    20
dtype: int64
'''

创建DataFrame

'''
pandas.DataFrame(data,index,columns,dtype,copy)
data 支持多种数据类型 如:ndarray,series,map,lists,dict,
index 行标签,如果没有传递索引值,默认值为0,1,2,3,4
columns 列标签,如果没有传递索引值,默认值为0,1,2,3,4
dtype 每列的数据类型
copy 是否复制数据,默认值为false
'''
#数组创建
np01 = np.arange(20).reshape(4,5)
df1=pd.DataFrame(np01,index=['a','b','c','d'],\
    columns=['name','age','sex','hobbit','address'],dtype = np.float32)
print(df1)
'''
   name   age   sex  hobbit  address
a   0.0   1.0   2.0     3.0      4.0
b   5.0   6.0   7.0     8.0      9.0
c  10.0  11.0  12.0    13.0     14.0
d  15.0  16.0  17.0    18.0     19.0
'''
#列表创建
x = [1,<
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
这篇笔记主要介绍了Pandas模块的基本操作和使用方法。PandasPython中一个用于数据分析和处理的常用库,提供了高效的数据结构和数据分析工具,是进行数据处理和数据挖掘的重要工具之一。 一、Pandas数据结构 Pandas主要有两种数据结构:Series和DataFrame。 1. Series Series是一种类似于一维数组的对象,由一组数据和一组与之相关的标签(即索引)组成。Series的创建方式如下: ```python import pandas as pd # 通过列表创建Series s = pd.Series([1, 3, 5, np.nan, 6, 8]) # 通过字典创建Series s = pd.Series({'a': 1, 'b': 2, 'c': 3}) ``` 2. DataFrame DataFrame是一种二维表格数据结构,由一组数据和一组行索引和列索引组成。DataFrame的创建方式有很多种,最常用的是通过字典创建。例如: ```python import pandas as pd data = {'name': ['Tom', 'Jerry', 'Mike'], 'age': [18, 20, 22], 'gender': ['M', 'M', 'F']} df = pd.DataFrame(data) ``` 二、Pandas的基本操作 1. 数据读取 Pandas可以读取多种格式的数据文件,如CSV、Excel、SQL等。常用的读取CSV文件的方式如下: ```python import pandas as pd df = pd.read_csv('data.csv') ``` 2. 数据预处理 数据预处理是数据挖掘中非常重要的一部分,Pandas提供了很多方便的函数和方法来进行数据清洗和转换。常用的数据预处理函数和方法有: - 处理缺失值 ```python # 判断是否存在缺失值 df.isnull() # 删除缺失值 df.dropna() # 填充缺失值 df.fillna(value) ``` - 处理重复值 ```python # 删除重复值 df.drop_duplicates() ``` - 数据转换 ```python # 数据类型转换 df.astype() # 数据替换 df.replace() ``` 3. 数据分析 Pandas提供了各种数据分析和处理的方法和函数,常用的包括: - 统计函数 ```python # 计算平均值 df.mean() # 计算标准差 df.std() # 计算最大值和最小值 df.max(), df.min() ``` - 排序 ```python # 按照某列排序 df.sort_values(by='column_name') ``` - 数据聚合 ```python # 对某列数据进行分组求和 df.groupby('column_name').sum() ``` 以上是Pandas模块的基础内容,还有很多高级用法和技巧需要进一步学习和掌握。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值