muwfm-CSDN博客

原创集群上运行pyspark

一、PySpark应用背景大规模结构化数据处理要求；scala编写函数对开发人员接受度低，python的高度简化代码完美契合数据处理过程；和scala处理无任何性能上的差异；二、PySpark原理Spark是什么：分布式（集群部署），高性能（基于内存可缓存磁盘），高可用的基于RDD（分区的不可变的弹性分布数据集）有向无环数据处理引擎。

2024-03-26 11:28:51 944

原创大数据面试一锅炖

一、mapreduce客户端提交任务到yarn 资源调度分配task数量，输入文件split成片，每片由每个task计算，map成k v模式，写入环形缓冲区，分区排序，80%之后溢写到本地再归并排序或者combiner合并，相同分区数据进入一个reduce，归并排序。最后输出。二、

2024-03-26 11:10:13 202

{“msg”:“success”,“code”:0,“data”:{“replayedJournalId”:0,“queryPort”:0,“rpcPort”:0,“version”:“”},“count”:0}则启动成功。配置priority_networks = 192.168.226.20/24。配置priority_networks = 192.168.226.21/24。配置priority_networks = 192.168.226.20/24。默认fe元数据存储位置（选配）

2024-03-26 11:04:20 883

原创 Kafka速通

Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统，能够将消息从一个端点传递到另一个端点，较之传统的消息中间件(例如 ActiveMQ、RabbitMQ)，Kafka 具有高吞吐量、内置分区、支持消息副本和高容错的特性，非常适合大规模消息处理应用程序。

2023-10-12 16:02:40 48

原创 Spark Sql调优

【代码】Spark Sql调优。

2023-10-10 16:40:15 158

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_44512660的博客

原创集群上运行pyspark

原创 PySpark实战

原创大数据面试一锅炖

原创 doris部署记录

原创 Kafka速通

原创 Spark Sql调优

空空如也

空空如也

原创 集群上运行pyspark

原创 PySpark实战

原创 大数据面试一锅炖

原创 doris部署记录

原创 Kafka速通

原创 Spark Sql调优

空空如也

空空如也

原创集群上运行pyspark

原创大数据面试一锅炖