Python polars学习-05 包含的数据结构

背景

polars学习系列文章,第5篇 包含的数据结构,与 pandas 一样,polars 包含的数据结构是:SeriesDataFrame,大部分操作与pandas 保持一致,减少了大家的学习难度

该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习
仓库地址:https://github.com/DataShare-duo/polars_learn

小编运行环境

import sys

print('python 版本:',sys.version.split('|')[0])
#python 版本: 3.11.9

import polars as pl

print("polars 版本:",pl.__version__)
#polars 版本: 0.20.22

Series 数据列

Series 是一维的数据结构,其有相同的数据类型,可以理解为数据库中的一列

import polars as pl

s = pl.Series("a", [1, 2, 3, 4, 5])
print(s)

shape: (5,)
Series: 'a' [i64]
[
	1
	2
	3
	4
	5
]

数据列的操作

print(s.min())  #1
print(s.max())  #5
print(s.mean())  #3.0
print(s.count())   #5

DataFrame 数据框

DataFrame 是一个二维的数据结构,其是由一系列的 Series 组成,可以理解为一张数据表,包含很多列

from datetime import datetime

df = pl.DataFrame(
    {
        "integer": [1, 2, 3, 4, 5],
        "date": [
            datetime(2022, 1, 1),
            datetime(2022, 1, 2),
            datetime(2022, 1, 3),
            datetime(2022, 1, 4),
            datetime(2022, 1, 5),
        ],
        "float": [4.0, 5.0, 6.0, 7.0, 8.0],
    }
)

print(df)

shape: (5, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 12022-01-01 00:00:004.0   │
│ 22022-01-02 00:00:005.0   │
│ 32022-01-03 00:00:006.0   │
│ 42022-01-04 00:00:007.0   │
│ 52022-01-05 00:00:008.0   │
└─────────┴─────────────────────┴───────┘

Head

默认展示前5行数据,也可以传出要展示的行数

print(df.head())
#shape: (5, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 12022-01-01 00:00:004.0   │
│ 22022-01-02 00:00:005.0   │
│ 32022-01-03 00:00:006.0   │
│ 42022-01-04 00:00:007.0   │
│ 52022-01-05 00:00:008.0   │
└─────────┴─────────────────────┴───────┘

print(df.head(3))
#shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 12022-01-01 00:00:004.0   │
│ 22022-01-02 00:00:005.0   │
│ 32022-01-03 00:00:006.0   │
└─────────┴─────────────────────┴───────┘

Tail

默认展示最后5行数据,也可以传出要展示的行数

print(df.tail())
#shape: (5, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 12022-01-01 00:00:004.0   │
│ 22022-01-02 00:00:005.0   │
│ 32022-01-03 00:00:006.0   │
│ 42022-01-04 00:00:007.0   │
│ 52022-01-05 00:00:008.0   │
└─────────┴─────────────────────┴───────┘

print(df.tail(3))
#shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 32022-01-03 00:00:006.0   │
│ 42022-01-04 00:00:007.0   │
│ 52022-01-05 00:00:008.0   │
└─────────┴─────────────────────┴───────┘

Sample 随机抽样

print(df.sample(3))
#shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---------   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 52022-01-05 00:00:008.0   │
│ 32022-01-03 00:00:006.0   │
│ 12022-01-01 00:00:004.0   │
└─────────┴─────────────────────┴───────┘

Describe 数据概况

print(df.describe())
#shape: (9, 4)
┌────────────┬──────────┬─────────────────────┬──────────┐
│ statistic  ┆ integer  ┆ date                ┆ float    │
│ ------------      │
│ str        ┆ f64      ┆ str                 ┆ f64      │
╞════════════╪══════════╪═════════════════════╪══════════╡
│ count      ┆ 5.055.0      │
│ null_count ┆ 0.000.0      │
│ mean       ┆ 3.02022-01-03 00:00:006.0      │
│ std        ┆ 1.581139 ┆ null                ┆ 1.581139 │
│ min1.02022-01-01 00:00:004.0      │
│ 25%2.02022-01-02 00:00:005.0      │
│ 50%3.02022-01-03 00:00:006.0      │
│ 75%4.02022-01-04 00:00:007.0      │
│ max5.02022-01-05 00:00:008.0      │
└────────────┴──────────┴─────────────────────┴──────────┘

历史相关文章


以上是自己实践中遇到的一些问题,分享出来供大家参考学习,欢迎关注微信公众号:DataShare ,不定期分享干货

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
根据提供的引用内容,我无法找到关于"python polars"的具体信息。但是,根据您提供的信息,我可以为您介绍一下Python中的pandas库,它是一个用于数据分析和处理的强大工具。 Pandas是一个开源的Python库,提供了高性能、易于使用的数据结构和数据分析工具。它主要用于处理和分析结构化数据,例如表格数据。Pandas提供了两种主要的数据结构:Series和DataFrame。 Series是一维的标记数组,类似于带有标签的数组或列表。它可以包含任何数据类型,并且可以通过标签进行索引。 DataFrame是一个二维的表格数据结构,类似于电子表格或SQL表。它由行和列组成,每列可以包含不同的数据类型。DataFrame可以从多种数据源创建,例如CSV文件、Excel文件、数据库查询等。 使用Pandas,您可以执行各种数据操作,例如数据清洗、数据转换、数据筛选、数据聚合等。它还提供了强大的数据可视化功能,可以帮助您更好地理解和分析数据。 以下是一个使用Pandas的示例代码: ```python import pandas as pd # 创建一个DataFrame data = {'Name': ['John', 'Emma', 'Mike'], 'Age': [25, 28, 30], 'City': ['New York', 'London', 'Paris']} df = pd.DataFrame(data) # 打印DataFrame print(df) # 对数据进行筛选和操作 filtered_df = df[df['Age'] > 25] sorted_df = df.sort_values('Name') # 打印筛选和排序后的结果 print(filtered_df) print(sorted_df) ``` 这是一个简单的示例,展示了如何创建DataFrame、对数据进行筛选和排序。您可以根据自己的需求使用Pandas进行更复杂的数据操作和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据人阿多

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值