- 博客(6)
- 收藏
- 关注
原创 MapReduce
MapReduce是一个面向大数据并进行处理的计算模型和框架。主要采用将海量数据分发到计算机集群进行运算,最后将结果汇总的先拆分再合并的思想。这样做最大好处就是成本低,速度快,计算机集群采用的都是普通的配置,联合集群中单个节点的运算能力,提高整体的处理速度,并且可以增加节点的数量来提高计算性能。 在处理数据时,通过将Map调用的输入数据,自动分割...
2019-07-08 20:43:21 140
原创 FileInputFormat切片源码及解析、切片大小参数配置
1.Job提交流程源码详解1.Job提交流程源码详解 waitForCompletion() submit();// 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); ...
2019-07-08 00:25:00 363
原创 关于格式化namenode
为什么不能一直格式化NameNode,格式化NameNode需要注意什么?Namenode: clusterID=CID-bc916e66-2466-4f53-9ba4-0fb1bf1605fedatanode: clusterID=CID-bc916e66-2466-4f53-9ba4-0fb1bf1605fe对比发现相同。正常情况下namenode和datanode的集群id时...
2019-07-03 00:25:06 411
原创 配置xsync集群分发脚本出现的小问题
前几天在配置xsync集群分发脚本时,将循环复制文件到所有节点的相同目录下。正确的脚本文件为:#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname...
2019-07-03 00:20:10 1079
原创 2019/07/01 12:30
上午做了完全分布式的虚拟机环境准备,由于第一台配置的不是太完美,所有后三台又加了不少东西。然后在scp案例中copy文件时,将02机的module文件复制到04机器时,sudo使用权限出现问题,再去配置,反复检查发现在sudoers文件中的ALL中的L没有大写。虚拟机准备阶段工作:vim /etc/udev/rules.d/70-persistent-net.rules 3件...
2019-07-01 12:29:45 156
原创 小白读《Google MapReduce》心得
开门见山,在接触大数据hadoop等的这几天里,各种大数据的专有名词出现在我的世界里,对各中架构、模型也开始了解。在读《Google MapReduce》之前,对MapReduce的了解是认为它是处理海量数据的一种模型。在处理海量数据时,在Map阶段将大量的数据分发到各个服务器上,由服务器进行处理后,在Reduce阶段将处理结果汇总,最后展现出来。阅读了这篇文章后,对其模型的内部结构,行为处理...
2019-07-01 01:48:51 142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人