Apache Arrow：一个跨平台的内存数据交换格式

最新推荐文章于 2024-08-07 09:07:42 发布

仲浩

最新推荐文章于 2024-08-07 09:07:42 发布

阅读量1.3k

点赞数

文章标签：开源大数据 Arrow

本文链接：https://blog.csdn.net/zhong930/article/details/80121944

版权

Apache Arrow是一个旨在加速大数据分析的开源项目，提供跨平台的内存数据交换格式，减少数据序列化和反序列化的开销，提高性能。它源于Apache Drill的Value Vector，支持列式、关系型和动态数据集，优化了物联网等场景的数据处理。通过统一的数据层，Arrow增强了不同数据分析系统间的交互性，减少了CPU资源浪费，推动了项目的标准化和功能共享。

摘要由CSDN通过智能技术生成

Apache Arrow是Apache基金会下一个全新的开源项目，同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。

用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具涵盖了数据分析的各个层面，比如列式存储格式(Parquet/ORC)、内存计算层(Drill、Spark、Impala和Storm)以及强大的API接口(Python和R语言)。Arrow则是最新加入的一员，它提供了一种跨平台跨应用的内存数据交换格式。

提高大数据分析性能的一个重要手段是对列式数据的设计和处理。列式数据处理借助向量计算和SIMD使我们可以充分挖掘硬件的潜力。Apache Drill这一大数据查询引擎无论是在硬盘还是在内存中数据都是以列的方式存在的，而Arrow就是由Drill中Value Vector这一数据格式发展而来。除了列式数据，Apache Arrow也支持关系型和动态数据集，这使它成了处理物联网等数据时的理想格式选择。

Apache Arrow为大数据生态系统带来了可能性是无穷的。有Apache Arrow做为今后的标准数据交换格式，各个数据分析的系统和应用之间的交互性可以说是上了一个新的台阶。过去大部分的CPU周期都花在了数据的序列化和反序列化上，现在我们则能够实现不同系统之间数据的无缝共享。这意味着用户在将不同的系统结合使用时再也不用为数据格式多花心思了。

Performance Advantage of Columnar In-Memory

图片描述