大数据
文章平均质量分 92
大果冻zbd
这个作者很懒,什么都没留下…
展开
-
从零开始搭建Hadoop伪分布式集群。
由于HBase环境一直有问题,一怒之下把Hadoop的环境全部删干净了,重新搭建集群并记录下来,权当复习知识了。 本教程大部分来自尚硅谷的Hadoop教程。 第一部分 虚拟机安装 1.1 在VMware中安装centos7 安装步骤略过,一直默认下去就行。 ping一下百度测试网络。 网络畅通:安装eple-release [root@localhost ~]$ yum install -y epel-release 关闭防火墙以及防火墙开机自启 [root@hadoop100 ~]# sy原创 2021-05-31 19:42:27 · 217 阅读 · 2 评论 -
Spark简介
Spark的简介 Spark 萌芽于加州大学伯克利分校,基于底层Mesos(Nexus)跨平台调度器构建,可视为Hadoop的内存变体,主要的区别有: 有向无环图(DAG):Spark应用程序形成一个有向无环图,而Mapreduce则是严格的两阶段并行计算。 内存分析:Spark最核心的技术在于弹性分布式数据集(RDDs),这些数据集缓存在内存中,每个RDD还存储血统谱系图用于容错,这个谱系图包含了一系列转换,但需要部分或全部执行转换才能重新生成RDD,RDDs加速了迭代和交互式应用程序的性能: 迭代应原创 2021-05-20 11:16:37 · 300 阅读 · 0 评论