Python polars学习-07 缺失值

背景

polars学习系列文章,第7篇 缺失值

该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习
仓库地址:https://github.com/DataShare-duo/polars_learn

小编运行环境

import sys

print('python 版本:',sys.version.split('|')[0])
#python 版本: 3.11.9

import polars as pl

print("polars 版本:",pl.__version__)
#polars 版本: 0.20.22

polars 中缺失值的定义

在 polars 中缺失值用 null 来表示,只有这1种表示方式,这个与 pandas 不同,在 pandas 中 NaN(NotaNumber)也代表是缺失值,但在polars中把 NaN 归属为一种浮点数据

df = pl.DataFrame(
    {
        "value": [1,2,3, None,5,6,None,8,9],
    },
)
print(df)
#shape: (9, 1)
┌───────┐
│ value │
│ ---   │
│ i64   │
╞═══════╡
│ 1     │
│ 2     │
│ 3     │
│ null  │
│ 5     │
│ 6     │
│ null  │
│ 8     │
│ 9     │
└───────┘

polars中缺失值包括的2种元信息

  • 缺失值数量,可以通过 null_count 方法来快速获取,因为已经是计算好的,所以调用该方法会立即返回结果
  • 有效位图(validity bitmap),代表是否是缺失值,在内存中用 0 或 1 进行编码来表示,所占的内存空间非常小,通常占用空间为(数据框长度 / 8) bytes,通过 is_null 方法来查看数据是否是缺失值
null_count_df = df.null_count()
print(null_count_df)
#shape: (1, 1)
┌───────┐
│ value │
│ ---   │
│ u32   │
╞═══════╡
│ 2     │
└───────┘


is_null_series = df.select(
    pl.col("value").is_null(),
)
print(is_null_series)
#shape: (9, 1)
┌───────┐
│ value │
│ ---   │
│ bool  │
╞═══════╡
│ false │
│ false │
│ false │
│ true  │
│ false │
│ false │
│ true  │
│ false │
│ false │
└───────┘

缺失值填充

缺失值填充主要通过 fill_null方法来处理,但是需求指定填充缺失值的方法

  • 常量,比如用 0 来填充
  • 填充策略,例如:向前、向后 等
  • 通过表达式,比如利用其他列来填充
  • 插值法
df = pl.DataFrame(
    {
        "col1": [1, 2, 3],
        "col2": [1, None, 3],
    },
)
print(df)
#shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ------  │
│ i64  ┆ i64  │
╞══════╪══════╡
│ 11    │
│ 2    ┆ null │
│ 33    │
└──────┴──────┘

常量填充

fill_literal_df = df.with_columns(
    fill=pl.col("col2").fill_null(pl.lit(2)),
)
print(fill_literal_df)
#shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ fill │
│ ---------  │
│ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╡
│ 111    │
│ 2    ┆ null ┆ 2    │
│ 333    │
└──────┴──────┴──────┘

填充策略

填充策略:{‘forward’, ‘backward’, ‘min’, ‘max’, ‘mean’, ‘zero’, ‘one’}

fill_df = df.with_columns(
    forward=pl.col("col2").fill_null(strategy="forward"),
    backward=pl.col("col2").fill_null(strategy="backward"),
)
print(fill_df)
#shape: (3, 4)
┌──────┬──────┬─────────┬──────────┐
│ col1 ┆ col2 ┆ forward ┆ backward │
│ ------------      │
│ i64  ┆ i64  ┆ i64     ┆ i64      │
╞══════╪══════╪═════════╪══════════╡
│ 1111        │
│ 2    ┆ null ┆ 13        │
│ 3333        │
└──────┴──────┴─────────┴──────────┘

通过表达式

fill_median_df = df.with_columns(
    fill=pl.col("col2").fill_null(pl.median("col2")), #类型会转换为浮点型
)
print(fill_median_df)
#shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ fill │
│ ---------  │
│ i64  ┆ i64  ┆ f64  │
╞══════╪══════╪══════╡
│ 111.0  │
│ 2    ┆ null ┆ 2.0  │
│ 333.0  │
└──────┴──────┴──────┘

通过插值法

fill_interpolation_df = df.with_columns(
    fill=pl.col("col2").interpolate(),  
)
print(fill_interpolation_df)
#shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ fill │
│ ---------  │
│ i64  ┆ i64  ┆ f64  │
╞══════╪══════╪══════╡
│ 111.0  │
│ 2    ┆ null ┆ 2.0  │
│ 333.0  │
└──────┴──────┴──────┘

历史相关文章


以上是自己实践中遇到的一些问题,分享出来供大家参考学习,欢迎关注微信公众号:DataShare ,不定期分享干货

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
根据提供的引用内容,我无法找到关于"python polars"的具体信息。但是,根据您提供的信息,我可以为您介绍一下Python中的pandas库,它是一个用于数据分析和处理的强大工具。 Pandas是一个开源的Python库,提供了高性能、易于使用的数据结构和数据分析工具。它主要用于处理和分析结构化数据,例如表格数据。Pandas提供了两种主要的数据结构:Series和DataFrame。 Series是一维的标记数组,类似于带有标签的数组或列表。它可以包含任何数据类型,并且可以通过标签进行索引。 DataFrame是一个二维的表格数据结构,类似于电子表格或SQL表。它由行和列组成,每列可以包含不同的数据类型。DataFrame可以从多种数据源创建,例如CSV文件、Excel文件、数据库查询等。 使用Pandas,您可以执行各种数据操作,例如数据清洗、数据转换、数据筛选、数据聚合等。它还提供了强大的数据可视化功能,可以帮助您更好地理解和分析数据。 以下是一个使用Pandas的示例代码: ```python import pandas as pd # 创建一个DataFrame data = {'Name': ['John', 'Emma', 'Mike'], 'Age': [25, 28, 30], 'City': ['New York', 'London', 'Paris']} df = pd.DataFrame(data) # 打印DataFrame print(df) # 对数据进行筛选和操作 filtered_df = df[df['Age'] > 25] sorted_df = df.sort_values('Name') # 打印筛选和排序后的结果 print(filtered_df) print(sorted_df) ``` 这是一个简单的示例,展示了如何创建DataFrame、对数据进行筛选和排序。您可以根据自己的需求使用Pandas进行更复杂的数据操作和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据人阿多

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值