自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 集群上运行pyspark

一、PySpark应用背景大规模结构化数据处理要求;scala编写函数对开发人员接受度低,python的高度简化代码完美契合数据处理过程;和scala处理无任何性能上的差异;二、PySpark原理Spark是什么:分布式(集群部署),高性能(基于内存可缓存磁盘),高可用的基于RDD(分区的不可变的弹性分布数据集)有向无环数据处理引擎。

2024-03-26 11:28:51 944

原创 PySpark实战

pyspark

2024-03-26 11:25:43 1136

原创 大数据面试一锅炖

一、mapreduce客户端提交任务到yarn 资源调度分配task数量,输入文件split成片,每片由每个task计算,map成k v模式,写入环形缓冲区,分区 排序,80%之后溢写到本地再归并排序或者combiner合并,相同分区数据进入一个reduce,归并排序。最后输出。二、

2024-03-26 11:10:13 202

原创 doris部署记录

{“msg”:“success”,“code”:0,“data”:{“replayedJournalId”:0,“queryPort”:0,“rpcPort”:0,“version”:“”},“count”:0}则启动成功。配置priority_networks = 192.168.226.20/24。配置priority_networks = 192.168.226.21/24。配置priority_networks = 192.168.226.20/24。默认fe元数据存储位置(选配)

2024-03-26 11:04:20 883

原创 Kafka速通

Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统,能够将消息从一个端点传递到另一个端点,较之传统的消息中 间件(例如 ActiveMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容 错的特性,非常适合大规模消息处理应用程序。

2023-10-12 16:02:40 48

原创 Spark Sql调优

【代码】Spark Sql调优。

2023-10-10 16:40:15 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除