- 博客(5)
- 收藏
- 关注
原创 Spark Core
对k-v格式的rdd中的key进行分组, 将相同key值对应的所有value值合并到一起, 返回一个k-v格式的rdd。自定义函数的返回值作为分组key值, 将相同key值对应的所有value值合并到一起, 返回一个k-v格式的rdd。对k-v格式的rdd中的key进行分组, 将相同key值对应的所有value值经过自定义函数进行聚合操作。将k-v格式rdd的value值经过自定义函数处理, 将自定义函数的返回值保存到新的rdd中。rdd.collectAsMap():将k-v格式rdd保存到字典中。
2024-08-04 21:25:38 784
原创 Spark
概念:基于内存的分布式计算引擎发展史:目前更新到了3版本,3.5版本2009年开发spark,2016年更新到2版本,2019年更新到3版本和hadoop相比hadoop是基础平台,包含HDFS/MapReduce/Yarn;spark是计算引擎MR是基于磁盘计算;spark是基于内存计算MR的task是以进程方式启动;spark的task是以线程方式启动MR是进行离线计算;spark可以进行离线计算和实时计算。
2024-08-04 21:07:09 1274
原创 Hadoop原理剖析和一些优化
底层还是MapReduce的join优化MapReduce中有两种join方式。指的是join的行为发生什么阶段。map端joinreduce端join。
2024-07-22 11:50:03 947
原创 Hadoop技术栈
HDFS是Hadoop三大组件(HDFSMapReduceYARN)之一全称是:Hadoop分布式文件系统)是Hadoop技术栈内提供的分布式数据存储解决方案可以在多台服务器上构建存储集群,存储海量的数据。
2024-07-21 08:51:56 1313 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人