3-1 pandas的数据结构

最新推荐文章于 2024-08-27 14:41:30 发布

刚入门的小仙女

最新推荐文章于 2024-08-27 14:41:30 发布

阅读量1.3k

点赞数

分类专栏：数据分析文章标签：数据分析 pandas

本文链接：https://blog.csdn.net/zkx990121/article/details/121567504

版权

这篇博客介绍了Pandas的两个核心数据结构——Series和DataFrame。Series是一种一维标记数组，包含各种数据类型并自动创建索引。DataFrame是二维表格型数据结构，拥有行和列索引，允许不同列存储不同类型的值。博客详细讲述了如何创建和操作这两个数据结构，包括从列表、numpy数组和字典创建Series，以及DataFrame的构建和基本用法，如转置、获取列数据和增删列。

摘要由CSDN通过智能技术生成

数据分析工具pandas

1. Pandas的数据结构

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了 高级数据结构和 数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一
（1）一个强大的分析和操作大型结构化数据集所需的工具集
（2）基础是NumPy，提供了高性能矩阵的运算
（3）提供了大量能够快速便捷地处理数据的函数和方法
（4）应用于数据挖掘，数据分析
（5）提供数据清洗功能

1. Pandas的数据结构

Pandas有两个最主要也是最重要的数据结构：Series和DataFrame

1.1 Series

1.1.1 Series介绍

Series是一种一维标记的数组型对象，能够保存任何数据类型(int,str,float,python object…)，包含了数据标签，称为索引
（1）类似一维数组的对象1,index=[‘名字’,‘年龄’,‘班级’]
（2）由数据和索引组成

索引(index)在左，数据(values)在右
索引是自动创建的

1.1.2 Series创建

创建Series的三种方式：

通过list创建

import pandas as pd
import numpy as np
#1. 通过list创建
s1 = pd.Series([1,2,3,4,5])
#结果为RangeIndex(start=0, stop=5, step=1)
print(s1.index)
#结果为[1 2 3 4 5]
print(s1.values)
#结果为：
#0    1
#1    2
#2    3
#3    4
#4    5
s1
#结果为：pandas.core.series.Series
type(s1)

通过numpy数组创建

#2. 通过numpy数组创建
#创建数组
arr1 = np.arange(1,6)
s2 = pd.Series(arr1)
#结果为：
#0    1
#1    2
#2    3
#3    4
#4    5
s2
#指定索引 索引长度和数据长度必须相同
s2 = pd.Series(arr1,index=['a','b','c','d','e'])
#结果为：
#a    1
#b    2
#c    3
#d    4
#e    5
s2

通过字典创建

#3. 通过字典创建
#创建字典
dict = {
   'name':'李宁','age':18,'class':'三班'}
s3 = pd.Series(dict)
#结果为：
#name     李宁
#age      18
#class    三班
s3
#规定索引按顺序输出
s3 = pd.Series(dict,index=['name',