数据分析学习day9

本文详细介绍了PandasDataFrame的基本概念,包括行和列索引、shape、dtypes、ndim等属性,以及head、tail、info、describe等查询方法。讲解了如何使用loc和iloc进行行和列选择,以及布尔索引和缺失数据的处理策略。
摘要由CSDN通过智能技术生成

dataframe:

dataframe对象既有行索引又有列索引

行索引:表明不同行,横向索引,叫index,0轴,axis=0

列索引:表明不同列,纵向索引,叫columns,1轴,axis=1

import pandas as pd
from pymongo import MongoClient
import numpy as np
s1 = [{'lsls':12,'ssss':66},{'lsls':112,'ssss':1212,'qwqw':556}]
de = pd.DataFrame(s1)
print(de)

没有值的地方显示NAN

dataframe的基础属性:

df.shape #行数,列数

df.dtypes #列数据类型

df.ndim #数据维度

df.index #行索引

df.columns #列索引

df.values # 对象值,二维ndarray数组

dataframe整体情况查询:

df.head(3) #显示头部几行,默认五行

df.tail (3) # 显示末尾几行,默认五行

df.info ()# 相关信息概览: 行数,列数,列索引,列非空值个数,列类型,内存占用

df.describe()# 快速综合统计结果:计数,均值,标准差,最大值,四分位数,最小值

pandas取行或者列:

方括号写数组,表示取行,对行进行操作

写字符串,表示的去列索引,对列进行操作

还有经过pandas优化过的选择方式;

df.loc通过标签索引行数据

df.iloc通过位置获取行数据

pandas的布尔索引;

 df[df["列名"]>800]

缺失数据的处理:
对于NAN的数据,在numpy中我们是如何处理的?

在pandas中处理起来非常简单

判断数据是否为NAN:pd.isnull(df).pd.notnull(df)

处理方式1:删除NAN所在的行列dropna(axis=0,how=‘any’,inplace=False)

处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.medlan(),t.fillna(0))

处理为0的数据:t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况,nan是不参与计算的,但是0会

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值