pandas成长之路——Series篇

一、Series的创建

pandas的导入

import pandas as pd

创建一个Series

s = pd.Series(data=data, index=index, name=name)

此处的data可以是以下数据类型:

  • 一个python字典
  • ndarray
  • 一个常量(比如:5)

由ndarray创建Series

import numpy as np
import pandas as pd

s = pd.Series(data = np.random.randn(5))
print(s)

输出结果:

0   -0.238572
1    1.585234
2   -1.311796
3   -0.072632
4   -0.913131
dtype: float64

当没有指定index时,索引默认使用数字0,1,2,……
若指定index,则以指定的index内容作为索引,如

import numpy as np
import pandas as pd

s = pd.Series(data=np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出结果:

a   -0.557177
b    0.541612
c    1.520322
d    1.089772
e   -0.145101
dtype: float64

注: Series中的data和index的长度必须一致。

由python字典创建Series

import pandas as pd

s = pd.Series(data={'b': 1, 'a': 0, 'c': 2})
print(s)

输出结果:

b    1
a    0
c    2
dtype: int64

若没有给定index,则以字典的键作为索引;
若给定了index,键与index中相同的索引将赋予指定值,键中没有的index值将被赋予NaN值,且Series中的顺序根据index定,如:

import pandas as pd

s = pd.Series(data={'b': 1, 'a': 0, 'c': 2}, index=['b', 'c', 'd', 'a'])
print(s)

输出结果:

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

由常量创建Series

由常量创建Series时,data为一个常数,此时必须指定index以确定Series的长度。

import pandas as pd

pd.Series(data=5., index=['a', 'b', 'c', 'd', 'e'])

输出结果:

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

创建Series时还可以给定name值

二、Series的取值

Series的取值方式和ndarray的方式一样,同时还增加了一些自己的取值方式。
先创建出一个Series

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

输出结果:

a    0.956451
b    1.530236
c    1.158817
d   -0.089345
e    0.017960
dtype: float64

根据下标取值

s[0]
# 输出结果为:0.9564505464176255

切片:

s[:3]
# 输出结果:
	a    0.956451
	b    1.530236
	c    1.158817
	dtype: float64

指定某些具体行:

s[[4, 3, 1]]

# 输出结果:
	e    0.017960
	d   -0.089345
	b    1.530236
	dtype: float64

根据index取值

s['a']
# 输出结果:0.9564505464176255

可以通过下标或索引对Series值进行修改

s[1]=1.1    # 等效于 s['b']=1.1
# s的值为:
	a    0.956451
	b    1.100000
	c    1.158817
	d   -0.089345
	e    0.017960
	dtype: float64

三、Series的属性

常用属性有data、index、name

import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'], name="yellice")

各属性的值为:

print(s.data)		# <memory at 0x0000022A666264C8> FutureWarning:后面版本将删除
print(s.index)		# Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
print(s.name)		# 'yellice'

四、Series的方法

1、loc与iloc方法

iloc是使用整数下标来索引,为integer location的简写
loc是使用index标签来索引
注:iloc和loc后面的是中括号([ ]),而不是小括号()

import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'], name="yellice")

输出结果:

a    0.579516
b    1.166545
c   -0.324949
d   -0.616307
e    0.221089
Name: yellice, dtype: float64

基本使用:

s.iloc[3]		# -0.6163069854118451
s.loc['d']		# -0.6163069854118451

也支持切片:

s.iloc[1:3]
# 输出结果
	b    1.166545
	c   -0.324949
	Name: yellice, dtype: float64

s.loc['b': 'd']
# 输出结果:
	b    1.166545
	c   -0.324949
	d   -0.616307
	Name: yellice, dtype: float64

注:iloc切片不包含最后一个索引,如上例中的下标3;而loc切片则包含最后一个标签,如上例的标签’d’。

2、tolist()方法

将Series数据转换成列表数据

s.tolist()
# 输出结果:
	[0.5795157725597121,
	 1.1665451939591256,
	 -0.3249487370941685,
	 -0.6163069854118451,
	 0.22108853110796142]

3、items()方法

返回一个索引和值的zip,类似python中对字典使用zip函数,list强转可打印

list(s.items())
# 输出结果:
	[('a', 0.5795157725597121),
	 ('b', 1.1665451939591256),
	 ('c', -0.3249487370941685),
	 ('d', -0.6163069854118451),
	 ('e', 0.22108853110796142)]

4、keys()方法

返回index值

s.keys()
# 输出结果:Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

5、min()和max()方法

返回最小值和最大值

6、to_numpy()方法

返回ndarray数据
注:此方法在pandas version 0.24.0新增,老版本不支持

7、get()方法

获取给定标签的值,类似字典中的方法get()

s.get('a')
# 输出结果:0.579516

s.get(['a', 'c'])
# 输出结果:
	a    0.579516
	c   -0.324949
	Name: yellice, dtype: float64

# 此方法支持对不存在的标签设置默认返回值
s.get('f', 66)

8、rename()方法

重命名Series

s.rename('hello')
# 输出结果:
	a    0.579516
	b    1.166545
	c   -0.324949
	d   -0.616307
	e    0.221089
	Name: hello, dtype: float64

9、sort_values()和sort_index()

sort_values() 根据值排序
sort_index() 根据index排序

s.sort_values()
# 输出结果:
	d   -0.616307
	c   -0.324949
	e    0.221089
	a    0.579516
	b    1.166545
	Name: yellice, dtype: float64
s = pd.Series([0.579516, 1.166545, -0.324949, -0.616307, 0.221089], index=['e', 'd', 'c', 'b', 'a'])
s.sort_index()
# 输出结果:
	a    0.221089
	b   -0.616307
	c   -0.324949
	d    1.166545
	e    0.579516
	dtype: float64

10、head()和tail()方法

查看数据的头和尾部数据,默认为显示5行数据

s.head(2)	
# 输出结果:
	a    0.579516
	b    1.166545
	Name: yellice, dtype: float64

s.tail(2)
# 输出结果:
	d   -0.616307
	e    0.221089
	Name: yellice, dtype: float64
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Pandas是一个Python库,用于数据处理和分析。在数据分析中,预处理是非常重要的一步,因为它可以帮助我们清洗和转换数据,使其更适合进行分析。Pandas提供了一些强大的预处理功能,包括数据清洗、数据转换、数据重塑和数据合并等。在使用Pandas进行数据分析时,预处理是必不可少的一步。 ### 回答2: 在数据分析中,数据的预处理是一个必要的过程。它的主要目的是清洗数据,准备数据,以便后续分析。在Python中,pandas是一种广泛使用的数据处理库。pandas可以通过其高效的数据结构和操作方法来清洗和处理数据。在本文中,将介绍pandas预处理的一些常见技术。 一、读取数据 在pandas中,使用read_csv()函数读取CSV格式的数据文件,read_excel()函数读取Excel格式的数据文件。它们都有很多选项,可以根据具体文件的格式进行设置。 二、查看数据 在pandas中,使用以下函数来查看数据: 1. head() - 显示数据框的前几行; 2. tail() - 显示数据框的后几行; 3. columns - 显示数据框的列名; 4. shape - 显示数据框的行列数; 5. info() - 显示数据框的基本信息,包括每列的名称、非空值数量和数据类型。 三、数据清洗 在数据清洗中,有以下一些常见的技术: 1. 删除重复行:使用drop_duplicates()函数; 2. 替换空值:使用fillna()函数; 3. 删除空值:使用dropna()函数; 4. 更改数据类型:使用astype()函数。 四、数据准备 在数据准备中,有以下一些常见的技术: 1. 数据合并:使用merge()函数; 2. 数据筛选:使用loc()函数或者iloc()函数; 3. 数据分组:使用groupby()函数; 4. 数据排序:使用sort_values()函数。 五、数据分析 在数据分析中,有以下一些常见的技术: 1. 数据聚合:使用agg()函数; 2. 统计描述:使用describe()函数; 3. 数据可视化:使用matplotlib或者seaborn库。 综上所述,pandas预处理是数据分析中必不可少的一步。通过使用pandas提供的函数和方法,可以方便地清理和处理数据,使其更容易被分析。 ### 回答3: PandasPython中最强大的数据处理库之一,它提供了DataFrame和Series这两种数据结构,可以快速便捷地处理数据。在数据分析过程中,我们往往需要先对数据进行预处理,以便后续的分析。Pandas提供了一系列的方法和函数,可以帮助我们进行数据的预处理。 首先,在进行数据分析之前,我们需要了解自己所面对的数据类型和数据结构。Pandas中的DataFrame结构就是类似于表格的结构,每一行代表一个样本,每一列代表一个属性。Series则是一维的数组结构。通过pandas.read_csv(),我们可以读取CSV格式的数据,并转化为DataFrame结构。 接下来,我们要对数据进行一些基本的处理,例如数据清洗、数据去重、缺失值处理、异常值处理等。在数据清洗过程中,我们往往需要对数据进行一些特殊的处理,例如字符串的分割、合并、替换等操作,Pandas提供了一系列能够对文本进行操作的函数。在数据去重方面,我们可以使用drop_duplicates()函数,它可以去除DataFrame中的重复记录。在处理缺失值时,Pandas提供了一系列的函数,如fillna()函数、dropna()函数,可以方便地将NaN值变为其他有意义的值,或者删除缺失值的行或列。在异常值处理方面,我们可以使用isoutlier()函数来找到数据中的异常值,并进行处理。 在数据预处理完成后,我们可以对数据进行一些统计分析,例如计算小计、计算总计、分位数、极差、方差、标准差等统计指标。我们可以使用describe()函数来获得数据的统计描述,还可以使用groupby()函数来对数据分组,使用agg()函数对每组进行计算统计指标。此外,我们还可以对数据进行排序、丢弃、合并等操作。 总之,Pandas是一个非常强大的Python库,可以轻松处理数据预处理和数据处理方面的任务。Pandas作为数据分析和数据处理的基础库,使用熟练后可以在数据分析中发挥更大的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值