spark
文章平均质量分 79
HW_WY
这个作者很懒,什么都没留下…
展开
-
RDD vs DataFrame vs DataSet
转载自https://www.jianshu.com/p/77811ae29fdd 目录 1. 前言 2. RDD/DataFrame快速回顾 3. 步入正文,Dataset 1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开始出现),有些开发人员对此还不熟悉...转载 2018-11-15 15:54:53 · 392 阅读 · 1 评论 -
极客时间:从0开始学大数据 09 | Yarn资源调度框架
从图上看,Yarn 包括两个部分:一个是资源管理器(Resource Manager),一个是节点管理器(Node Manager)。这也是 Yarn 的两种主要进程:ResourceManager 进程负责整个集群的资源调度管理,通常部署在独立的服务器上;NodeManager 进程负责具体服务器上的资源和任务管理,在集群的每一台计算服务器上都会启动,基本上跟 HDFS 的 DataN...原创 2018-11-20 15:35:06 · 1203 阅读 · 0 评论