大数据系列之：读取parquet文件统计数据量

最新推荐文章于 2024-06-12 09:43:58 发布

最笨的羊羊

最新推荐文章于 2024-06-12 09:43:58 发布

阅读量876

点赞数 10

分类专栏：日常分享专栏文章标签：大数据系列读取parquet文件统计数据量

本文链接：https://blog.csdn.net/zhengzaifeidelushang/article/details/135345586

版权

日常分享专栏专栏收录该内容

464 篇文章 81 订阅

订阅专栏

大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量
二、parquet-tools统计parquet文件数据量
三、实际应用案例

一、Spark读取parquet文件统计数据量

首先，创建一个 SparkSession 对象：

val spark = SparkSession.builder()
  .appName("Parquet Data Count")
  .getOrCreate()

然后，使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame：

val data = spark.read
  .format("parquet")
  .load("/path/to/hdfs/parquet/file")

最后，使用 DataFrame 的 count 方法进行数据量统计：

val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具：

首先，使用 Hadoop 命令行工具 hadoop 运行以下命令：

hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount

该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量，并输出结果。

三、实际应用案例

读取hdfs上的parquet文件：

%spark
  val data = spark.read
  .format("parquet")
  .load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量：

%spark
val count = data.count()

count: Long = 433173

最笨的羊羊

关注

10
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据系列之：读取parquet文件统计数据量

大数据系列之：读取parquet文件统计数据量
复制链接

扫一扫

专栏目录

大数据系列之：读取parquet文件统计数据量

大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量

二、parquet-tools统计parquet文件数据量

三、实际应用案例

“相关推荐”对你有帮助么？