Spark
bmyyyyyy
来一JAY个
展开
-
【Spark-HDFS小文件合并】使用 Spark 实现 HDFS 小文件合并
需求描述:1、使用 Spark 做小文件合并压缩处理。2、实际生产中相关配置、日志、明细可以记录在 Mysql 中。3、core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xmlx 等文件放在项目的 resources 目录下进行认证。4、下面的案例抽取出了主体部分的代码,具体实现时需要结合 HDFS 工具类,利用好 Mysql 做好配置、日志、以及相关明细,结合各自业务进行文件合并。2)代码实现2.1.HDFSUtils2.2.MergeFile原创 2023-12-26 17:20:57 · 1320 阅读 · 1 评论 -
【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)
【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。原创 2023-05-12 11:37:46 · 617 阅读 · 1 评论 -
【Spark-WordCount】Spark做简单的WordCount
【代码】【Spark-WordCount】Spark做简单的WordCount。原创 2021-01-23 18:14:11 · 160 阅读 · 0 评论