程序员用于机器学习编程的Python 数据处理库 pandas 入门教程

入门介绍

pandas适合于许多不同类型的数据,包括:

· 具有异构类型列的表格数据,例如SQL表格或Excel数据

· 有序和无序(不一定是固定频率)时间序列数据。

· 具有行列标签的任意矩阵数据(均匀类型或不同类型)

· 任何其他形式的观测/统计数据集。

由于这是一个Python语言的软件包,因此需要你的机器上首先需要具备Python语言的环境。关于这一点,请自行在网络上搜索获取方法。

关于如何获取pandas请参阅官网上的说明:pandas Installation

通常情况下,我们可以通过pip来执行安装:


sudo pip3 install pandas

或者通过conda 来安装pandas:


conda install pandas

目前(2018年2月)pandas的最新版本是v0.22.0(发布时间:2017年12月29日)。

我已经将本文的源码和测试数据放到Github上: pandas_tutorial ,读者可以前往获取。

另外,pandas常常和NumPy一起使用,本文中的源码中也会用到NumPy

建议读者先对NumPy有一定的熟悉再来学习pandas,我之前也写过一个NumPy的基础教程,参见这里:Python 机器学习库 NumPy 教程

核心数据结构

pandas最核心的就是Series和DataFrame两个数据结构。

这两种类型的数据结构对比如下:

名称 维度 说明
Series 1维 带有标签的同构类型数组
DataFrame 2维 表格结构,带有标签,大小可变,且可以包含异构的数据列

DataFrame可以看做是Series的容器,即:一个DataFrame中可以包含若干个Series。

注:在0.20.0版本之前,还有一个三维的数据结构,名称为Panel。这也是pandas库取名的原因:pan(el)-da(ta)-s。但这种数据结构由于很少被使用到,因此已经被废弃了。

Series

由于Series是一维结构的数据,我们可以直接通过数组来创建这种数据,像这样:


# data_structure.py

import pandas **as** pd

import numpy **as** np

series1= pd.Series([1, 2, 3, 4])

print("series1:\n{}\n".format(series1))

这段代码输出如下:


series1:

0    1

1    2

2    3

3    4

dtype: int64

这段输出说明如下:

· 输出的最后一行是Series中数据的类型,这里的数据都是int64类型的。

· 数据在第二列输出,第一列是数据的索引,在pandas中称之为Index。

我们可以分别打印出Series中的数据和索引:


# data_structure.py

print("series1.values: {}\n".format(series1.values))

print("series1.index: {}\n".format(series1.index))

这两行代码输出如下:


series1.values: [1 2 3 4]

series1.index: RangeIndex(start=0, stop=4, step=1)

如果不指定(像上面这样),索引是[1, N-1]的形式。不过我们也可以在创建Series的时候指定索引。索引未必一定需要是整数,可以是任何类型的数据,例如字符串。例如我们以七个字母来映射七个音符。索引的目的是可以通过它来获取对应的数据,例如下面这样:

# data_structure.py

series2= pd.Series([1, 2, 3, 4, 5, 6, 7],

    index=["C", "D", "E", "F", "G", "A", "B"])

print("series2:\n{}\n".f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小雁子学Python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值