hadoop
老猿说说
Java老猿
展开
-
Hadoop中CombineFileInputFormat详解
在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的Hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputFormat满足我们的需求。CombineFileInputFormat 原理(网上牛人总结):第一次:将同DN转载 2017-08-15 11:29:31 · 482 阅读 · 0 评论 -
hive内置函数
数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值转载 2017-09-24 17:29:57 · 1043 阅读 · 0 评论 -
record-mr-hive
create table if not exists log(ip string,time string,request string,exetime float,body_tyes int,referer string,user_agent string,body string)row format delimited fields terminated by '\001'原创 2017-09-05 00:02:54 · 451 阅读 · 0 评论 -
hive-hadoop 常用命令
1.查看hadoop任务yarn application -list |grep 用户名yarn application -kill application_1443009203033_866212.liunx nohup命令nohup ./label_driver.sh > /home/disk4/bi/driver_label/label_driver20150325.log 2>&1 &转载 2017-09-02 15:34:04 · 1513 阅读 · 0 评论 -
jobhistory
问题hadoop webUI上查看任务运行输出日志,任务运行中可以正常查看,但当任务完成后却无法查看日志输出报错java.lang.Exception: Unknown container. Container either has not started or has already completed or doesn’t belong to this node at all.原因...转载 2019-05-13 17:47:50 · 547 阅读 · 0 评论 -
hadoop 找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster
这个是 因为 在 yarn 执行MapReduce的使用 找不到 hadoop 的classpath一般在 shell中输入hadoop classpath输出为/etc/hadoop/conf:/opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/lib/hadoop/libexec/../../hadoop/lib/*:/o...转载 2019-05-13 20:16:43 · 2368 阅读 · 0 评论 -
/bin/java: No such file or directory
This answer is applicable for Hadoop version 2.6.0 and earlier. Disabling SIP and creating a symbolic link does provide a workaround. A better solution is to fix the hadoop-config.sh so it picks up yo...转载 2019-05-13 20:31:47 · 13161 阅读 · 0 评论 -
hive1.2.2安装
Hive是Hadoop组态中的数据仓库,本质是将sql语句转换为MapReduce任务,所以Hive只是一个解析引擎,它的数据存储在hdfs上,元数据信息依托mysql数据库。在这里有一个小问题,为什么需要mysql关系数据库,因为hdfs存储的只是数据信息,而建表的时候是需要列名来查询的,因此要用mysql来建立表信息,当然也可以用其他的关系型数据库。在这里依托mysql数据库搭建Hive组件。...原创 2020-11-10 13:10:29 · 156 阅读 · 0 评论 -
yarn配置
下面配置的是两个队列default和etl,default队列分配20%的处理能力, etl队列分配80%的处理能力,用户dba只能向default队列提交作业,用户etl只能向etl队列提交作业,dba用户组只能向default队列提交任务:yarn.scheduler.capacity.maximum-am-resource-percent=0.2 --AM可以占用资源队列的最大百分比...原创 2020-11-10 13:10:04 · 181 阅读 · 0 评论 -
hive mapjoin使用
今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。转载 2017-09-23 21:02:30 · 956 阅读 · 0 评论 -
腾讯大规模Hadoop集群实践 [转程序员杂志]
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每日作业数100多万,每转载 2017-09-23 17:25:49 · 360 阅读 · 0 评论 -
详解MapReduce工作流程
一、客户端向JobTracker提交作业这个阶段要完成以下工作:向JobTracker申请 一下新的JobID检查是否指定了output dir,并且确认output dir不存在根据InputPath计算input split。这里的input split并不是MapReduce输入数据的完整拷贝,只是记录了每个split在什么地方存放着。split和block一样都是逻辑概念,转载 2017-08-15 14:02:42 · 678 阅读 · 0 评论 -
Hadoop Journal Node 作用
转自:https://my.oschina.net/u/189445/blog/661561NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。sta转载 2017-08-15 22:33:22 · 323 阅读 · 0 评论 -
hadoop-ha
1、安装前准备 ①、集群规划: 主机名称用户主机IP安装软件运行进程 centos71hzq192.168.1.201jdk、hadoopNameNode、DFSZKFailoverController(zkfc) centos转载 2017-08-23 09:26:18 · 299 阅读 · 0 评论 -
namenode正处于safemode状态,怎么处理?
解释:safemode是namenode的一种状态(active/standby/safemode安全模式)namenode进入安全模式的原理: a、namenode发现集群中的block丢失率达到一定比例时(0.01%),namenode就会进入安全模式,在安全模式下,客户端不能对任何数据进行操作,只能查看元数据信息(比如ls/mkdir) b、如何退出安全模式?找到转载 2017-09-23 12:27:18 · 1577 阅读 · 0 评论 -
hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息
关键字:hdfs fsck、block、locations在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。[hadoop@dev ~]$ hdfs fsckUsage: DFSck [-list-corruptfileblocks | [-move | -转载 2017-09-23 15:09:42 · 12852 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
首先,简单回顾一下Hadoop 1.x中的JVM重用功能:用户可以通过更改配置,来指定TaskTracker在同一个JVM里面最多可以累积执行的Task的数量(默认是1)。这样的好处是减少JVM启动、退出的次数,从而达到提高任务执行效率的目的。 配置的方法也很简单:通过设置mapred-site.xml里面参数mapred.job.reuse.jvm.num.tasks的值。该值默认是1,意味转载 2017-09-23 17:16:47 · 253 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是转载 2017-09-23 17:22:15 · 331 阅读 · 0 评论 -
hadoop JOB的性能优化实践
使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括的方面很多:job设计,算法,数据结构,代码编写。转载 2017-09-23 17:23:26 · 374 阅读 · 0 评论 -
hadoop分布式平台优化
Hadoop性能调优不仅是自身的调优,还应包括底层硬件、操作系统等。下面逐一介绍:1、底层硬件Hadoop采用的是master/slave的架构,master(resourcemanager或namenode)要维护元数据信息、调度等,任务量及重要性远大于slave,因此尽量将master高配置。2、操作系统1)增大最大文件描述符的数量和网络连接上限(作用明显)转载 2017-09-23 17:24:26 · 255 阅读 · 0 评论 -
hadoop日常运维
日常运维 升级 问题处理方法日常运维进程管理由于配置文件的更改,需要重启生效,或者是进程自己因某种致命原因终止,或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动,或者是增删节点过程中的需要,进程的关闭与启动,使用hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfcyarn-da...原创 2020-11-10 13:10:38 · 428 阅读 · 0 评论