自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark Core

对k-v格式的rdd中的key进行分组, 将相同key值对应的所有value值合并到一起, 返回一个k-v格式的rdd。自定义函数的返回值作为分组key值, 将相同key值对应的所有value值合并到一起, 返回一个k-v格式的rdd。对k-v格式的rdd中的key进行分组, 将相同key值对应的所有value值经过自定义函数进行聚合操作。将k-v格式rdd的value值经过自定义函数处理, 将自定义函数的返回值保存到新的rdd中。rdd.collectAsMap():将k-v格式rdd保存到字典中。

2024-08-04 21:25:38 784

原创 Spark

概念:基于内存的分布式计算引擎发展史:目前更新到了3版本,3.5版本2009年开发spark,2016年更新到2版本,2019年更新到3版本和hadoop相比hadoop是基础平台,包含HDFS/MapReduce/Yarn;spark是计算引擎MR是基于磁盘计算;spark是基于内存计算MR的task是以进程方式启动;spark的task是以线程方式启动MR是进行离线计算;spark可以进行离线计算和实时计算。

2024-08-04 21:07:09 1274

原创 Hadoop原理剖析和一些优化

底层还是MapReduce的join优化MapReduce中有两种join方式。指的是join的行为发生什么阶段。map端joinreduce端join。

2024-07-22 11:50:03 947

原创 Hadoop02

计算:对数据进行处理,使用统计分析等手段得到需要的结果分布式计算:多台服务器协同工作,共同完成一个计算任务,

2024-07-21 12:05:09 698

原创 Hadoop技术栈

HDFS是Hadoop三大组件(HDFSMapReduceYARN)之一全称是:Hadoop分布式文件系统)是Hadoop技术栈内提供的分布式数据存储解决方案可以在多台服务器上构建存储集群,存储海量的数据。

2024-07-21 08:51:56 1313 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除