weixin_44349574-CSDN博客

原创 MapReduce

MapReduce是一个面向大数据并进行处理的计算模型和框架。主要采用将海量数据分发到计算机集群进行运算，最后将结果汇总的先拆分再合并的思想。这样做最大好处就是成本低，速度快，计算机集群采用的都是普通的配置，联合集群中单个节点的运算能力，提高整体的处理速度，并且可以增加节点的数量来提高计算性能。在处理数据时，通过将Map调用的输入数据，自动分割...

2019-07-08 20:43:21 140

原创 FileInputFormat切片源码及解析、切片大小参数配置

1．Job提交流程源码详解1．Job提交流程源码详解 waitForCompletion() submit();// 1建立连接 connect(); // 1）创建提交Job的代理 new Cluster(getConfiguration()); // （1）判断是本地yarn还是远程 initialize(jobTrackAddr, conf); ...

2019-07-08 00:25:00 363

原创关于格式化namenode

为什么不能一直格式化NameNode,格式化NameNode需要注意什么？Namenode: clusterID=CID-bc916e66-2466-4f53-9ba4-0fb1bf1605fedatanode: clusterID=CID-bc916e66-2466-4f53-9ba4-0fb1bf1605fe对比发现相同。正常情况下namenode和datanode的集群id时...

2019-07-03 00:25:06 411

原创配置xsync集群分发脚本出现的小问题

前几天在配置xsync集群分发脚本时，将循环复制文件到所有节点的相同目录下。正确的脚本文件为：#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname...

2019-07-03 00:20:10 1079

原创 2019/07/01 12：30

上午做了完全分布式的虚拟机环境准备，由于第一台配置的不是太完美，所有后三台又加了不少东西。然后在scp案例中copy文件时，将02机的module文件复制到04机器时，sudo使用权限出现问题，再去配置，反复检查发现在sudoers文件中的ALL中的L没有大写。虚拟机准备阶段工作：vim /etc/udev/rules.d/70-persistent-net.rules 3件...

2019-07-01 12:29:45 156

开门见山，在接触大数据hadoop等的这几天里，各种大数据的专有名词出现在我的世界里，对各中架构、模型也开始了解。在读《Google MapReduce》之前，对MapReduce的了解是认为它是处理海量数据的一种模型。在处理海量数据时，在Map阶段将大量的数据分发到各个服务器上，由服务器进行处理后，在Reduce阶段将处理结果汇总，最后展现出来。阅读了这篇文章后，对其模型的内部结构，行为处理...

2019-07-01 01:48:51 142

weixin_44349574的博客

原创 MapReduce

原创 FileInputFormat切片源码及解析、切片大小参数配置

原创关于格式化namenode

原创配置xsync集群分发脚本出现的小问题

原创 2019/07/01 12：30

原创小白读《Google MapReduce》心得

空空如也

空空如也

原创 MapReduce

原创 FileInputFormat切片源码及解析、切片大小参数配置

原创 关于格式化namenode

原创 配置xsync集群分发脚本出现的小问题

原创 2019/07/01 12：30

原创 小白读《Google MapReduce》心得

空空如也

空空如也

原创关于格式化namenode

原创配置xsync集群分发脚本出现的小问题

原创小白读《Google MapReduce》心得