hadoop
GE12
这个作者很懒,什么都没留下…
展开
-
yarn cgroups介绍及安装
1.要在较新版本的CentOS上使用cgroup,您需要安装 libcgroup 以及 libcgroup-工具: $ sudo yum install libcgroup $ sudo yum install libcgroup-tools 2.查看运行状态,并启动服务[root@localhost ~]# service cgconfig statusStopped[root@localhost ~]# service cgconfig startStarting cgco.原创 2020-11-25 10:28:54 · 765 阅读 · 0 评论 -
(13)Hadoop JobHistory
a)配置nodemanage的LogAggregation功能(yarn-site.xml) yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 864000 yarn.log-aggregation.retain-check-interva原创 2017-03-17 14:07:39 · 700 阅读 · 0 评论 -
(15)hadoop 日志级别设置
第一处是${HADOOP_HOME}/etc/hadoop/hadoop-env.sh,把INFO改为WARN即可:启动脚本${HADOOP_HOME}/sbin/hadoop-daemon.sh,也需要这样改一下:export HADOOP_ROOT_LOGGER=${HADOOP_ROOT_LOGGER:-"WARN,RFA"}原创 2017-04-14 16:40:30 · 2610 阅读 · 0 评论 -
(14)YARN Timeline Server
概述介绍当前状态时间轴结构部署配置运行时间线服务器通过命令行访问通用数据发布应用程序的具体数据时间线服务器REST API通用数据REST API概述介绍通过时间轴服务器在YARN中以通用方式存储和检索应用程序的当前和历史信息。它有两个责任:坚持应用程序特定信息收集和检索完全具体到应用程序或框架的信息。例如,Hadoop MapReduc翻译 2017-03-22 13:10:29 · 3235 阅读 · 0 评论 -
(17)mapreduce 提交任务两种方式
1.本地提交代码打包到jar里面,上传到服务器,然后用命令行启动/app/soft/hadoop-2.6.0/bin/hadoop jar /app/soft/hadoop-2.6.0/hadoop.jar com.bigdata.task.keywordCount2.远程提交其实YARN是可以通过Java程序向Hadoop集群提交MapReduce任务的原创 2017-05-03 11:40:41 · 3276 阅读 · 0 评论 -
18.MapReduce中的分布式缓存
简介DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的子节点的机器中,各个节点可以自行读取本地文件系统上的数据进行处理。符号链接可以同在原本HDFS文件路径上+”#somename”来设置符号连接(相当于一个快捷方式)这样在MapReduce程序中可以直接通通过:File fi转载 2017-05-05 09:45:09 · 1345 阅读 · 1 评论 -
19.MapReduce五大过程
https://www.zybuluo.com/awsekfozc/note/219974MapReduceInput将输入日志数据,数据库数据输入到map函数 (key-value形式)一行记录对于一个键值对(key-value)Map1)每个节点都需要执行代码(需要打成jar包) 2)对输入的数据做转载 2017-05-08 14:09:45 · 941 阅读 · 0 评论 -
(16)hadoop 集群重启与停止
Once all the necessary configuration is complete, distribute the files to the HADOOP_CONF_DIR directory on all the machines.Hadoop StartupTo start a Hadoop cluster you will need to start both th原创 2017-04-27 16:20:19 · 3613 阅读 · 0 评论 -
(8) hadoop 常见错误
java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 16.namenode进程中出现如下报错信息原因:namenode元数据被破坏,需要修复解决:恢复一下namenodehadoop namenode -recover原创 2017-03-14 11:10:33 · 679 阅读 · 0 评论 -
(12)ResourceManager高可用性
介绍建筑RM故障转移恢复以前的活跃RM的状态部署配置管理命令ResourceManager Web UI服务网页服务介绍本指南概述了YARN的ResourceManager的高可用性,以及如何配置和使用此功能的详细信息。ResourceManager(RM)负责跟踪集群中的资源,并调度应用程序(例如MapReduce作业)。在Hadoop 2.4之前,Resou翻译 2017-03-15 11:08:03 · 4809 阅读 · 0 评论 -
(11)HDFS高可用性使用Quorum Journal Manager
HDFS高可用性使用Quorum日记管理器HDFS高可用性使用Quorum日记管理器目的注意:使用Quorum Journal Manager或常规共享存储背景建筑硬件资源部署配置概述配置详细信息部署详细信息管理命令自动故障转移介绍组件部署ZooKeeper在你开始之前配置自动故障转移在ZooKeeper中初始化HA状态使用start-dfs.sh启动集群手动启翻译 2017-03-15 11:01:45 · 817 阅读 · 0 评论 -
(10)MapReduce模型
在并行计算领域最著名的就是MPI模型,MPI是一种消息传递编程模型,在大规模科学计算领域已经成功应用了数年,而MapReduce则是一种近几年出现的相对较新的并行编程技术,但是MapReduce计算模型也是建立在数学和计算机科学基础上的,实践已经证明这种并行编程模型具有简单、高效的特点,最为重要的两个概念就是Map和Reduce,最基本的处理思想就是“分而治之,然后归约”。Hadoop会将原创 2017-03-14 14:24:30 · 699 阅读 · 0 评论 -
(2)Hadoop重新格式化HDFS的方法
1、查看hdfs-site.xml:property> name>dfs.name.dirname> value>/home/hadoop/hdfs/namevalue> description>namenode上存储hdfs名字空间元数据description> property> property> name>dfs.data.dirna原创 2017-02-04 16:08:50 · 1036 阅读 · 0 评论 -
(3)Hadoop HDFS 容量
HDFS 上每个数据节点最多能存储多少数据取决于节点的硬盘大小。对于单个节点来说,其存储的容量为磁盘容量减去hdfs-site.xml配置文件中dfs.datanode.du.reserved参数值。 dfs.datanode.du.reserved 900000000000 Reserved space in bytes per volume. Always leave this muc原创 2017-02-04 16:16:55 · 4607 阅读 · 0 评论 -
(4)Hadoop 添加和删除数据节点
添加节点A:新节点中添加账户,设置无密码登陆B:Name节点中设置到新节点的无密码登陆C:在Name节点slaves文件中添加新节点D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致)E:在新节点中执行./bin/hadoop-daemon.sh start datanode ./bin/hadoop-daemon.sh start tasktracker 均衡个数据节点中的数原创 2017-02-04 16:34:17 · 2012 阅读 · 0 评论 -
(0) 什么是Apache Hadoop
Apache™Hadoop®项目开发用于可靠,可扩展,分布式计算的开源软件。Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在一组计算机之上提供高可用性服务,每个计算机都易于出现故障。该项目包括以原创 2015-08-18 13:49:19 · 711 阅读 · 0 评论 -
(5)Hadoop 进程详解
一.master节点NameNodeNameNode的主要功能之一是用来管理文件系统的命名空间,其将所有的文件和文件目录的元数据保存在一个文件系统树中。为了保证交互速度,NameNode会在内存中保存这些元数据信息,但同时也会将这些信息保存到硬盘上进行持久化存储,通常会被保存成以下文件:命名空间镜像文件(fsimage)和修改日志文件(edits)。下图原创 2015-10-16 13:49:27 · 1234 阅读 · 0 评论 -
(5)Hadoop 多文件输出
在MapClass或Reduce类中加入以下代码private MultipleOutputs mos;public void setup(Context context) throws Exception{ mos=new MultipleOutputs(context);}public void cleanup(Context context) throws Ex原创 2017-02-09 09:56:46 · 556 阅读 · 0 评论 -
(6)Java 读写 hdfs文件或者目录
1.读取单个文件 Date date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_log_click" + yesterday;原创 2017-02-09 10:53:31 · 4226 阅读 · 0 评论 -
(7)mapreduce 不执行reduce
reduce函数就是可选的,当不指定Reduce时候,系统会使用缺省的reduce函数(一般都没有什么操作) 不想要reduce就把其设置为NONE job.setNumReduceTasks(0);//设置个数为0 ; 也可以在mapred-site.xml下设置:<property> <name>mapred.reduce.tasks</name> <value>0</v原创 2017-02-28 14:41:26 · 4036 阅读 · 0 评论 -
(9)hdfs 数据存储与切分
在Hadoop中数据的存储是由HDFS负责的,HDFS是Hadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征:对于整个集群有单一的命名空间。数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。文件会被分割成多个文件块,每个原创 2017-03-14 14:21:15 · 1495 阅读 · 0 评论 -
(1)Linux下Hadoop2.6集群的搭建
一、集群机器准备修改 三台机器的 /etc/hosts 文件,配置如下:127.0.0.1 localhost192.168.109.137 master192.168.109.139 slave01192.168.109.138 slave02可以使用 ping 命令测试三台机器的连通性。二,关闭三台机器的防火墙三、配置 ssh 无密码访问集群机原创 2016-08-10 14:41:52 · 1412 阅读 · 0 评论