- 博客(6)
- 收藏
- 关注
原创 集群上运行pyspark
一、PySpark应用背景大规模结构化数据处理要求;scala编写函数对开发人员接受度低,python的高度简化代码完美契合数据处理过程;和scala处理无任何性能上的差异;二、PySpark原理Spark是什么:分布式(集群部署),高性能(基于内存可缓存磁盘),高可用的基于RDD(分区的不可变的弹性分布数据集)有向无环数据处理引擎。
2024-03-26 11:28:51
944
原创 大数据面试一锅炖
一、mapreduce客户端提交任务到yarn 资源调度分配task数量,输入文件split成片,每片由每个task计算,map成k v模式,写入环形缓冲区,分区 排序,80%之后溢写到本地再归并排序或者combiner合并,相同分区数据进入一个reduce,归并排序。最后输出。二、
2024-03-26 11:10:13
202
原创 doris部署记录
{“msg”:“success”,“code”:0,“data”:{“replayedJournalId”:0,“queryPort”:0,“rpcPort”:0,“version”:“”},“count”:0}则启动成功。配置priority_networks = 192.168.226.20/24。配置priority_networks = 192.168.226.21/24。配置priority_networks = 192.168.226.20/24。默认fe元数据存储位置(选配)
2024-03-26 11:04:20
883
原创 Kafka速通
Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统,能够将消息从一个端点传递到另一个端点,较之传统的消息中 间件(例如 ActiveMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容 错的特性,非常适合大规模消息处理应用程序。
2023-10-12 16:02:40
48
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人