数据计算工具
文章平均质量分 85
spark、hive、flink
「已注销」
这个作者很懒,什么都没留下…
展开
-
Spark读取hive表元数据异常
在ETL接入数据时,需要对表新增字段,因为表的特殊性质,存在实时接入更新三个月历史数据的情况,故该表的小文件很多,在通过hive增加字段的时候,spark没有立即生效,导致用hive命令修改元数据后, hive表的元数据信息和spark-SQL的schema不一致。考虑到之前执行refresh的时候有进行小文件合并,中间有杀掉小文件合并进程,有可能是影响了refresh,故再进行了小文件合并后又重新执行了refresh,才成功了,且最后一个是通过spark shell执行的。命令用于刷新表的元数据。原创 2024-03-10 21:37:04 · 828 阅读 · 0 评论 -
Flink基础
Apache Flink是一个同时支持分布式数据流处理和数据批处理的大数据处理系统。Flink可以表达和执行许多类别的数据处理应用程序,包括实时数据分析,连续数据管道,历史数据处理(批处理)和迭代算法(机器学习,图表分析)以及容错的数据流。Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。原创 2023-11-03 20:30:00 · 110 阅读 · 1 评论 -
Hive常用参数
hive参数原创 2022-11-20 17:41:22 · 873 阅读 · 0 评论 -
Hive基础
row_number():从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列;例子1: select json_tuple(json,'movie','rate','time','userid') as (movie_id,rate,time,user_id)ORC:RCfile的升级版,优化了压缩、查询(二进制列式存储,压缩),文件可切分,支持复杂的数据结构,常用的压缩格式Lzip,Snappy,压缩、解压一般是冲突的在。原创 2023-04-10 22:00:33 · 453 阅读 · 0 评论 -
yarn和mapreduce
yarn和mapreduce原创 2023-02-19 23:26:07 · 225 阅读 · 0 评论 -
hive和presto的SQL对比
Presto使用的内存管理技术是基于内存池的,可以更好地管理内存的分配和释放。假如一个Query需要消耗100GB的内存,这就超过了整个集群的内存了,那么Presto的coordinator就直接卡掉这个查询,防止。查询优化:Presto使用了一系列的查询优化技术,如谓词下推、列裁剪、分区裁剪等,可以减少数据的传输和处理,从而提高查询性能。社区支持:Presto有一个活跃的社区,不断地更新和维护代码,修复bug和增加新功能,保证了Presto的稳定性和可靠性。Master-Slave的架构。原创 2023-04-21 22:07:31 · 639 阅读 · 0 评论 -
flink常用参数
flink支持的参数原创 2023-01-26 18:47:18 · 331 阅读 · 0 评论 -
SparkSQL join
SparkSQL join_type原创 2022-12-18 19:08:11 · 1611 阅读 · 0 评论 -
存储格式~
存储格式原创 2022-12-25 19:41:23 · 167 阅读 · 0 评论 -
因SHUFFLE的KEY不同对落盘文件的影响
因SHUFFLE的KEY不同对落盘文件的影响原创 2022-12-07 22:19:19 · 272 阅读 · 0 评论 -
Spark常用参数
spark原创 2022-11-16 21:47:53 · 1575 阅读 · 1 评论