Python : Arrow、Pyarrow库、以及与Julia互读

最新推荐文章于 2025-04-02 21:13:22 发布

songroom

最新推荐文章于 2025-04-02 21:13:22 发布

阅读量6k

点赞数 3

分类专栏： python Julia

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wowotuo/article/details/110497489

版权

Julia 同时被 2 个专栏收录

171 篇文章

订阅专栏

79 篇文章

订阅专栏

test.csv 样例：
在这里插入图片描述
一、从csv =>table=>生成arrow文件

import pyarrow as pa
from pyarrow import csv
csv_path = 'C:\\Users\\songroom\\Desktop\\test.csv'
table = csv.read_csv(csv_path)
#df = table.to_pandas()
#table = pa.Table.from_pandas(df)
path = 'C:\\Users\\songroom\\Desktop\\py.arrow'
writer = pa.RecordBatchFileWriter(path, table.schema)
writer.write_table(table)
writer.close()

二、读出arrow文件，并转成DataFrame

用下例方式，读出pyarrow写的py.arrow文件:


import pyarrow as pa;
path = 'C:\\Users\\songroom\\Desktop\\py.arrow'
df = pa.ipc.open_file(path).read_pandas()
print(df)

三、julia与python arrow文件的互读

1、pyarrrow: 读julia生成的一个test.arrow文件。

值得注意的是，以下两种方式在与julia文件交互上有较大不同：

# 不能读出julia对应的test.arrow文件
def read_arrow_to_df_julia_not_ok(path):
    df = pa.ipc.open_file(path).read_pandas()
    return df
# 可以读出julia对应的test.arrow文件
def read_arrow_to_df_julia_ok(path):
    with open(path,"rb") as f:
        r = pa.ipc.RecordBatchStreamReader(f)
        df = r.read_pandas()
    return df

>>> path = 'C:\\Users\\songroom\\Desktop\\test.arrow'
>>> t0 = t.time()
>>> df = read_arrow_to_df_julia_ok(path)
>>> t1 = t.time()
>>> print("read julia arrow file cost time: ",t1-t0)
read julia arrow file cost time:  0.23099970817565918

但好象速度很慢！0.23s.

2、julia：读出pyarrow库生成的py.arrow文件

代码如下：

using DataFrames;
using Arrow

arrow_path = "C:\\Users\\songroom\\Desktop\\py.arrow"
@time df = read_arrow_file(arrow_path)
function read_arrow_file(arrow_path::String)
    println("read arrow file ")
    df = DataFrame(Arrow.Table(arrow_path))
    return df
end

可以正常读出。

在这里插入图片描述

博客等级

码龄11年

442
原创

1358
点赞

5654
收藏

2150
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

rust : rustup切换stable、nightly
CSDN-Ada助手: 如何在 Rust 中实现高效的数据库访问？
Rust : 数据分析利器polars用法
zrong2025: let bars: Vec<Bar> = dataframe_to_structs!(df, Bar,[code:String,date:NaiveDate,close:f64,open:f64,high:f64,low:f64]); //这样实现
Rust : 数据分析利器polars用法
zrong2025: macro_rules! convert_value { // 处理f64类型 ($any_val:expr, f64, $field:ident) => { $any_val.extract::<f64>().unwrap_or_else(|| panic!("字段 {} 类型不匹配: 期望f64, 实际为 {:?}", stringify!($field), $any_val) ) }; // 处理String类型（需特殊处理） ($any_val:expr, String, $field:ident) => { $any_val.get_str() .map(|s| s.to_string()) .unwrap_or_else(|| panic!("字段 {} 类型不匹配: 期望字符串, 实际为 {:?}", stringify!($field), $any_val) ) }; //处理日期 ($any_val:expr, NaiveDate, $field:ident) => {{ use polars::prelude::AnyValue; use chrono::NaiveDate; match $any_val { // Polars Date类型（存储为i32天数） AnyValue::Date(days) => { let epoch = NaiveDate::from_ymd_opt(1970, 1, 1).unwrap(); epoch.checked_add_days(chrono::Days::new(*days as u64)) .unwrap_or_else(|| panic!("无效日期值: {} (字段: {})", days, stringify!($field)))
Rust : 数据分析利器polars用法
zrong2025: macro_rules! dataframe_to_structs{ ($df:expr, $StructName:ident, [$($field:ident: $ty:tt),+]) => { { (0..$df.height()).map(|i| { let row = $df.get_row(i) .unwrap_or_else(|_| panic!("无效行索引: {}", i)) .0; $StructName { $( $field: { let col_idx = $df.get_column_index(stringify!($field)) .unwrap_or_else(|| panic!("字段不存在: {}", stringify!($field))); let any_val = &row[col_idx]; convert_value!(any_val, $ty, $field) }, )+ } }).collect::<Vec<_>>() } }; }
Rust : 数据分析利器polars用法
zrong2025: 大佬，啥时候更新一下，macro_rules! dataframe_to_structs

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。