Pandas相关笔记整理

这篇博客详细介绍了Pandas库在数据处理中的应用,包括使用Series和DataFrame数据结构,查询数据,进行统计分析,实现SQL操作,以及如何处理缺失值,如删除法和fillna方法。还提到了多层索引和透视表的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

包含序列Series和数据框DataFrame两种数据结构

Series类似numpy的一维数组

一维数组创建

字典创建

DataFrames某一行或者列创建

DataFrames类似numpy的二维数组

二维数组创建

字典创建

数据框创建

index属性获取序列的索引

import pandas as  pd
s=pd.Series([1,2,3,4,5])
s.index#看索引
RangeIndex(start=0, stop=5, step=1)
s.index=['a','b','c','d','e']#索引赋值
s[0]
1
s['a']
1
s[:3]#前三个,位置获取
a    1
b    2
c    3
dtype: int64
s['c':]#索引获取
c    3
d    4
e    5
dtype: int64
# 自动化对其

Pandas查询数据

data=pd.DataFrame({
   'a':[1,2,3,4,5,6,7],'b':[1,2,3,4,5,6,7],'c':[1,2,3,4,5,6,7]})
data
a b c
0 1 1 1
1 2 2 2
2 3 3 3
3 4 4 4
4 5 5 5
5 6 6 6
6 7 7 7
#查看前五行,末尾五行
data.head()
data.tail()
#查看指定的行,两层括号
data.iloc[[0,1]]
a b c
0 1 1 1
1 2 2 2
#查看指定的列,两层括号
data[['a','b']]
a b
0 1 1
1 2 2
2 3 3
3 4 4
4 5 5
5 6 6
6 7 7
#同时查看行与列
data.loc[[0,1],['a','b']]
a b
0 1 1
1 2 2
#具体值的多个条件查询
data[(data['a']>1)&(data['b']>1)][['a','b']]
a b
1 2 2
2 3 3
3 4 4
4 5 5
5 6 6
6 7 7

统计分析

import numpy as np
a=np.random.normal(size=15)#正态分布
da=pd.Series(2*a+3)
db=np.random.f(2,4,size=15)#浮点数
dc=np.random.randint(1,100,size=15)#随机整数
print(da)
print(db)
print(dc)
0     1.470286
1     0.533744
2     2.600050
3    -3.209468
4     2.574417
5     0.155033
6     7.886463
7     0.723382
8     3.801481
9     3.328130
10    1.369691
11    5.334218
12
<think>嗯,用户想要查找关于Pandas的学习笔记或资料。首先,我需要回忆一下用户提供的引用内容,看看有没有相关的信息。引用里提到唐宇迪的学习笔记2是关于Pandas的,还有几个具体的例子,比如info()方法、set_option设置、求和计算以及缺失值处理。这些都是Pandas数据处理的基础知识点。 用户的问题是关于Pandas的学习笔记,所以应该整理这些引用中的相关内容,分点说明。可能需要包括基本操作、数据处理函数、设置选项、缺失值处理等。另外,用户示例中的结构很清晰,有代码示例和相关问题,所以回答也应该类似,结构分明,有代码块和相关问题。 接下来,我需要检查引用中的具体内容。引用1提到df.info(),引用2是关于设置显示选项,引用3是sum()函数按行或列求和,引用4是处理缺失值的sum和mean方法。这些都可以作为学习笔记的不同部分。 然后,按照用户的要求,回答需要结构清晰,分步骤讲解,并包含代码示例。同时,生成相关问题,比如如何查看数据基本信息、处理缺失值的方法、优化显示等。需要确保每个引用在适当的位置标注,比如在提到info()时加上[^1],设置选项时引用[^2],求和时引用[^3],缺失值处理引用[^4]。 需要注意的是,用户可能希望了解Pandas的基础操作和常用函数,所以应该涵盖数据读取、信息查看、数据计算、显示设置、缺失值处理这几个方面。同时,代码示例要正确,符合LaTeX格式的要求,行内公式用$...$,独立公式用$$...$$,不过这次回答中可能数学公式较少,主要是代码块。 最后,生成的相关问题需要围绕Pandas的进一步学习,比如性能优化、高级功能、数据清洗、合并数据等。确保问题与内容相关,能引导用户深入学习。 总结步骤:分点介绍Pandas的基础内容,每个点包含引用中的示例代码和说明,添加引用标识,最后列出相关问题。</think>### Pandas 学习笔记 PandasPython 中用于数据分析的核心库,提供高效的数据结构和操作工具。以下是关键知识点整理: --- #### 1. **数据基本信息查看** 使用 `info()` 方法可快速查看数据的维度、列名、非空值数量及数据类型: ```python import pandas as pd df = pd.read_csv('nba.csv') print(df.info()) # 输出数据基本信息,如行数、列类型等 ``` --- #### 2. **数据计算与统计** - **按列求和**:`sum()` 默认按列计算: ```python df.sum() # 输出各列求和结果,例如 one列总和为9.25,two列为-5.80 ``` - **按行求和**:设置 `axis=1`: ```python df.sum(axis=1) # 计算每行的总和 ``` --- #### 3. **显示格式优化** 通过 `pd.set_option` 调整输出格式,提升数据可读性: ```python pd.set_option('display.max_rows', 500) # 设置最大显示行数 pd.set_option('display.float_format', '{:.2f}'.format) # 保留两位小数 ``` --- #### 4. **缺失值处理** Pandas 内置方法支持忽略缺失值,例如 `sum` 和 `mean`: ```python print(ebola.Cases_Guinea.sum(skipna=True)) # 忽略缺失值求和 ``` --- #### 5. **数据清洗与转换** 常用操作包括: - 删除重复值:`df.drop_duplicates()` - 填充缺失值:`df.fillna(0)` - 类型转换:`df['列名'].astype(int)` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值