![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
zyj_369
曾经的我 一身迷彩 手握钢枪 现在的我 对新科技充满着无限好奇 喜欢专研大数据技术 希望可以和志同道合的人一起加油 一起圆梦
展开
-
hadoop报错:ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_
一、详细报错信息[root@hadoop101 hadoop-3.1.3]# sbin/start-dfs.shStarting namenodes on [hadoop101]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to原创 2021-01-09 14:12:41 · 1944 阅读 · 2 评论 -
测试hadoop集群的读写与计算能力
1、测试HDFS写性能向HDFS集群写10个128M的文件cd /data/hadoop/hadoop/bin/hadoop jar /data/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数代表含义:Number of files: 10:文件数量为10Total MB原创 2020-11-21 14:00:30 · 1015 阅读 · 0 评论 -
hadoop中使用lzo压缩详解
1、简介规则:lzo压缩不是hadoop中自带的,需要安装可以切分,但是需要建立优点:压缩/解压速度比较快,合理的压缩率;支持 split,是 hadoop 中最流行的压缩格式;可以在 linux 系统下安装 lzop 命令,使用方便。缺点:压缩率比 gzip 要低一些; hadoop 本身不支持,需要安装;在应用中对 lzo 格式的文件需要做一些特殊处理(为了支持 split 需要建索引,还需要指定 inputformat 为 lzo 格式)。lzo编译安装详解: https:原创 2020-11-21 08:55:01 · 1882 阅读 · 0 评论 -
hadoop支持LZO压缩配置详解
1、编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译编译过程: https://blog.csdn.net/weixin_46122692/article/details/1098254402、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar重命名为hadoop-lzo-0.4.21.jarmv hadoop-lzo-0.4.21-SNAPSHOT.jar hadoop原创 2020-11-21 08:51:41 · 373 阅读 · 0 评论 -
Linux上安装编译lzo详解
hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,具体编译步骤如下。1、环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)maven 安装地址:https://blog.csdn.net/weixin_46122692/article/details/109822837gcc-c++zlib-develautoconfautomakelibtool通过y原创 2020-11-20 11:10:10 · 2570 阅读 · 1 评论 -
Hadoop中 Map Join与计数器
一、概念Map Join适用于一张表十分小、一张表很大的场景,然后两张表还有关联二、项目介绍1、待处理文本order.txt订单信息表里记录着订单ID,商品ID,订单销量(模拟当大表)1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6pd.txt商品信息表里记录着商品ID,商品名称(模拟当小表,小表直接加入缓存)01 小米02原创 2020-10-20 13:00:23 · 198 阅读 · 2 评论 -
Hadoop中 Combiner合并
一、概念Combiner是MapReduce程序中Mapper和Reduce之外的一种组件Combiner组件的父类就是ReducerCombiner和Reduce的区别主要在于运行位置Combiner是在每一个MapTask所在的节点运行, Reduce是在接收全局所有Mapper的输出结果后执行Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减少网络传输量Combiner要在不影响最终逻辑业务的情况下使用,而且,Combiner的输出kv要原创 2020-10-19 18:28:09 · 199 阅读 · 0 评论 -
Hadoop中 GroupingComparator分组(辅助分组)和二次排序
一、辅助排序:(GroupingComparator分组)在Reduce端对key进行分组。应用于:在接受的key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时,可以采用分组排序。二、举例说明1、需求统计同一品牌下,卖最贵的手机型号希望输出信息(品牌名、手机型号名、价格)待处理文本xiaomi 小米10 1999 8 2020-07-10huawei 华为P10 2999 7 2020-07-08原创 2020-10-18 20:08:20 · 246 阅读 · 0 评论 -
Hadoop MR 分区(partition)和全排序(WritableComparable)
一、概念1、分区:Hadoop默认分区是根据key的hashCode对ReduceTask个数取模得到的,用户无法控制哪个key存储到哪个分区。 想要控制哪个key存储到哪个分区,需要自定义类继承Partitioner<KEY, VALUE>, 泛型KEY, VALUE分别对应Mapper里的输出key,value,因为分区是在map()之后,环形缓冲区溢写时完成的。 提示:如果ReduceTask的数量大于自定义类中重写的getPartition()设置的分区数时,原创 2020-10-17 22:10:50 · 722 阅读 · 0 评论 -
HadoopHA(高可用集群)2.7.2 原理及搭建
一、介绍:1、所谓HA(High Available),即高可用(7*24小时不中断服务)2、实现高可用的关键是消除单点故障,即HDFS的nameNode和YARN的resourceManager,所以HA机制就是HDFS的HA和YARN的HA。由于一个HDFS集群由一个NameNode节点和多个DataNode节点组成,一旦NameNode节点宕机,那么HDFS将不能进行文件的上传与下载。由于一个Yarn集群由一个ResourceManager节点和多个NodeManager节点组成,一旦原创 2020-10-16 18:47:13 · 305 阅读 · 0 评论 -
Hadoop(MapReducer)面试题
一、单选题1、Shuffle中Partitioner 分区发生在哪个过程( A )A. 溢写过程B. 本地MergeC. reduce函数阶段D. map函数阶段2、在整个maprduce运行阶段,数据是以( A )形式存在的A. key/valueB. LongWritableC. TextD. IntWritable3、下列哪个方法提交job任务的入口方法 ( B )A. JoB.addCacheFile()B. JoB.wa原创 2020-10-16 09:26:03 · 1816 阅读 · 0 评论 -
hadoop(hdfs)常见面试题
1、谈谈什么是Hadoop?Hadoop是一个开源软件框架,用于存储大量数据,并发计算/查询节点的集群上的数据。 Hadoop包括以下内容: HDFS(Hadoop Distributed File System):Hadoop分布式文件存储系统。 MapReduce:分布式计算框架。它以分布式和并行的方式处理大量的数据。 YARN(资源定位器):用于管理和调度集群资源的框架。2、谈谈 hadoop1 和 hadoop2 的区别? hadoop1.x:由Common(公共原创 2020-10-14 19:29:34 · 905 阅读 · 2 评论 -
hadoop2.7.2搭建完全分布式集群
新建虚拟机修改虚拟机的静态IP修改主机名,添加主机和ip的映射关系关闭防火墙 (1-4 通过脚本完成)创建普通用户 useradd jinghang passwd jinghang配置普通用户具有root权限 vim /etc/sudoers 在91行下添加如下内容: jinghang ALL=(ALL) NOPASSWD:ALL完成后:wq!7.在/opt目录下创建文件夹(software存放压缩软件包,modul存放解压后的软件包)..原创 2020-10-10 10:53:46 · 772 阅读 · 4 评论