pandas初级篇

本文介绍了pandas的基础知识,包括DataFrame数据结构、查询操作、增删改查以及数据统计分析。详细讲解了DataFrame的属性和方法,如values、index、columns等,并展示了如何进行数据的增、删、查、改操作。此外,还提到了数据统计分析的重要方法,如value_counts(),用于快速获取列的频次统计。
摘要由CSDN通过智能技术生成

pandas初级篇

1 pandas数据

panadas加载完成之后的数据类型为DataFrame,如果对DataFrame进行查询后,其结果转变为Serise类型

如果要求了解不深的话可以简单的把DataFrame理解成为一个表格

Serise理解成为只有一列的表格

当我们利用pandas从数据库,csv文件等读出来的数据都是DataFrame类型,如果对DataFrame进行查询,只要查询结果多余1列,那么查询出来的类型就是DataFrame类型,如果是单列,则类型为Serise类型

2 DataFrame属性和方法

import pandas as pd
data = pd.read_csv('./datas/train.csv')

这种数据结构就是二维表结构,当然这里的二维说的是表,很多时候我们把表里面的字段也称为维,这个维是在数据分析里面说的,很多时候数据里面每一个字段就是一个属性,或者说一个特征,有时候也会看到某个对象存在N个维,这里的维通通说的是字段

要区分其实很容易,只需要记住在空间上说的维其实是只坐标轴,二维空间就x,y轴,表示平面,三维空间xyz轴,三个轴,表示立体,4维空间甚至更高的维,在我们现实生活中难以用图像来表示,只有通过数学方式进行表示,所以高纬空间通常都是偏向数学方向的表示

属性

values index columns dtypes size ndim shape T

data.values

表示直接将数据转变成为numpy的ndarray类型数据,只要经过这一步操作之后,返回的数据就可以直接使用numpy的方法进行各种变化

data.index

不要看到index就以为是把所有的列名列出来,实际上DataFrame存在两个索引,行索引和列索引,可以想象成为就是二维数据表的行列索引,这里的index打出来的是行,而且显示的不是所有数据,现实的是一个统计结果,当然这是你没有自定义行索引的情况

比如数据库里面的数据,行就表示每一条记录,实际上我们这里的行显示的就像

RangeIndex(start=0, stop=891, step=1)

这种结果,很好读,从0开始到891结束,步长为1

data.columns

数据库里面col经常简写为列,很显然这个查出来的就是列索引,对应到数据库里面就是字段名

data.dtypes

表示查询出所有列对应的数据类型,这里一目了然,非常方便

data.size

这个查出来的结果为存在多少个元素,因为是二维表格,行乘以列就是元素总的个数

data.shape

很熟悉,这个就是指的形状

data.ndim

这个是查询维度,因为我们经常在数据或者excel,或者csv格式读取出来的数据,这些通常都是二维表格,所以查询出来是2,但是不排除后面对data进行处理过后,进行更高维度的拼接或者添加高维度索引,想象一下,既然列表里面可以再放列表,那么data中元素就只能是数值或者字符串么?

data.T

很像numpy中的ndarray.T一样,对二维表进行转置,将列变成行,行变成列

data.字段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值