机器学习篇—Pandas数据处理基础

最新推荐文章于 2024-09-24 00:19:20 发布

Lapulas2022

最新推荐文章于 2024-09-24 00:19:20 发布

阅读量907

点赞数 3

分类专栏：机器学习笔记文章标签： python 数据分析大数据机器学习数据可视化

本文链接：https://blog.csdn.net/weixin_44225901/article/details/104550711

版权

Pandas 是非常著名的开源数据处理库，其基于 NumPy 开发，该工具是 Scipy 生态中为了解决数据分析任务而设计。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。本文是学习相关课程之后，做的些许笔记。😀😀😀

Pandas数据类型

pandas主要数据类型

//主要使用
Series（一维数组）
DataFrame（二维数组）
//次要使用
Panel（三维数组）
Panel4D（四维数组）
PanelND（更多维数组）

导入pandas库

%matplotlib inline
import pandas as pd

创建Pandas基本数据结构

Series

pandas.Series(data=None, index=None)
//数据只有列索引
//data 可以是字典，或者NumPy 里的 ndarray 对象
//index 是数据索引，索引是Pandas数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据
示例：
//通过字典创建series结构
a=pd.Series({
   'x':6,'y':66,'z':666})
结果：
x      6
y     66
z    666
dtype: int64 //此处默认为int64数据类型
//通过ndarray对象创建series结构
示例：
a=pd.Series(np.random.randint(1,6,6))
结果：
0    2
1    5
2    1
3    4
4    5
5    4
dtype: int64

DataFrame

//数据不但具有行索引，且具有列索引。
pandas.DataFrame(data=None, index=None, columns=None)
//一维数组、列表、字典或者 Series 字典。
示例1：Series 字典。
a=pd.DataFrame({
   'x':pd.Series((1,2,3)),'y':pd.Series((4,5,6))})
结果：
	x	y
0	1	4
1	2	5