数据分析工具pandas
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一
(1) 一个强大的分析和操作大型结构化数据集所需的工具集
(2) 基础是NumPy,提供了高性能矩阵的运算
(3) 提供了大量能够快速便捷地处理数据的函数和方法
(4)应用于数据挖掘,数据分析
(5)提供数据清洗功能
1. Pandas的数据结构
Pandas有两个最主要也是最重要的数据结构:Series和DataFrame
1.1 Series
1.1.1 Series介绍
Series是一种一维标记的数组型对象,能够保存任何数据类型(int,str,float,python object…),包含了数据标签,称为索引
(1)类似一维数组的对象1,index=[‘名字’,‘年龄’,‘班级’]
(2)由数据和索引组成
- 索引(index)在左,数据(values)在右
- 索引是自动创建的
1.1.2 Series创建
创建Series的三种方式:
- 通过list创建
import pandas as pd
import numpy as np
#1. 通过list创建
s1 = pd.Series([1,2,3,4,5])
#结果为RangeIndex(start=0, stop=5, step=1)
print(s1.index)
#结果为[1 2 3 4 5]
print(s1.values)
#结果为:
#0 1
#1 2
#2 3
#3 4
#4 5
s1
#结果为:pandas.core.series.Series
type(s1)
- 通过numpy数组创建
#2. 通过numpy数组创建
#创建数组
arr1 = np.arange(1,6)
s2 = pd.Series(arr1)
#结果为:
#0 1
#1 2
#2 3
#3 4
#4 5
s2
#指定索引 索引长度和数据长度必须相同
s2 = pd.Series(arr1,index=['a','b','c','d','e'])
#结果为:
#a 1
#b 2
#c 3
#d 4
#e 5
s2
- 通过字典创建
#3. 通过字典创建
#创建字典
dict = {
'name':'李宁','age':18,'class':'三班'}
s3 = pd.Series(dict)
#结果为:
#name 李宁
#age 18
#class 三班
s3
#规定索引按顺序输出
s3 = pd.Series(dict,index=['name',