2020年02月_玉羽凌风

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载通过Hive JDBC提交的查询, 如何获取其在Yarn上的Application ID

数据平台上需要封装Hive查询，只提供API给业务方使用，代码中通过Hive JDBC完成将查询语句向Hive提交，等待执行完成，结果解析的功能.用户提交查询之后意识到查询语句错误(非语法错误)，不想等待错误的语句执行完成后再次提交. 由于用户没有yarn client的权限，kill task的操作也需要通过API提供，因此在提交查询语句时需要获取其在Yarn上的Application Id....

2020-02-25 16:16:43 4465

原创大数据平台数据权限管理设计

背景和范围当前大数据团队没有一个统一的操作权限控制和管理平台，对于分析师在服务器上的权限，目前都是给予对应分析节点的EC2机器账号，且为了方便操作和管理都是给予的管理员权限，因此安全性风险较大；对于数据开发者，主要通过分配IAM控制AWS的操作权限；对于team的所有人都是通过分配aws的ak,sk在本地进行操作赋权；随着数据平台的不断的丰富和完善，需要在各组件之上做认证，鉴权和审计等管理，数...

2020-02-25 15:22:43 6417

原创 hive server日志配置

HiveServer2操作日志可用于Beeline客户端（Hive 0.14以上）。这些参数配置记录：hive.server2.logging.operation.enabledhive.server2.logging.operation.log.locationhive.server2.logging.operation.verbose （Hive 0.14到1.1）hive.serv...

2020-02-25 15:20:12 3634

转载 yarn-cluster模式提交Spark任务，如何关闭client进程?

问题：最近现场反馈采用yarn-cluster方式提交spark application后，在提交节点机上依然会存在一个yarn的client进程不关闭，又由于spark application都是spark structured streaming程序（application常年累月的执行），最终导致spark application提交节点服务器资源被占满，当执行其他操作时，会出现以下错误...

2020-02-15 14:14:40 1693

转载 Hive用户权限管理理解

HiverServer2支持远程多客户端的并发和认证，支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库，由于是内嵌的文件数据库，只支持一个用户的操作访问，支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限，其安全控制体系与Linux及Hadoop的用户是否存在联系。1）remote方式部署HiveHive中m...

2020-02-10 15:53:46 567

转载 hadoop作业reduce过程调优使用到的参数笔记

reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以，为了优化reduce的执行时间，hadoop中是等job的第一个map结束后，所有的reduce就开...

2020-02-07 22:42:02 462

转载浅谈Spark On Yarn 中的延迟调度问题

延迟调度算法思想十分简单，为了实现data locality(即该task所需数据就在其运行的机器上)，会尽量将task分布到有其所需数据的机器或者jvm中去，如果机器或者jvm已被占用就进行延迟等待，直到该机器或者jvm可以运行该task或者超过等待时限则将task运行到其他机器上。这个想法基于以下几点:1.往往数据比程序要大得多，分布式上处理的数据都是GB为单位的，将程序放到数据所在机器去...

2020-02-06 10:55:40 750

转载 Capacity Scheduler的队列属性介绍

概述本文基于 Apache hadoop 3.1.1 版本对Capacity Scheduler队列属性进行说明介绍。队列的部分属性对应于Yarn web中展示的队列信息。下表是Yarn web中的队列信息示例，在后面的队列属性介绍中，会指出属性对应于队列信息的哪个指标（如果有的话）。Queue State: RUNNINGUsed Capacity: <memory...

2020-02-06 10:36:04 3067

转载 Hive analyze命令解析

关于Hive analyze命令1. 命令用法：表与分区的状态信息统计ANALYZE TABLE tablename[PARTITION(partcol1[=val1], partcol2[=val2], ...)]COMPUTE STATISTICS [noscan];列信息统计ANALYZE TABLE tablename[PARTITION(partcol1[=val1], ...

2020-02-06 00:08:34 3025

转载 Improving Hive Performance with S3/ADLS/WASB

Tune the following parameters to improve Hive performance when working with S3, ADLS or WASB.Table7.1.Improving General PerformanceParameter Recommended Setting yarn.scheduler.capacity.n...

2020-02-05 23:36:52 244

原创如何加速hive msck？

You can increase the value of thehive.metastore.fshandler.threadsparameter to increase the number of threads used for scanning the partitions in the MSCK phase (defaut is 15). This will speed up loa...

2020-02-05 23:32:37 559

转载 MapReduce的容错机制

Failures在现实世界中，难免遇到用户代码错误、进程崩溃、机器宕机等情况。使用Hadoop的一个好处是它有能力处理这些失败，使你的job能够成功完成。我们需要考虑以下实体的失败：task、application master、node manager 、resource manager。Task Failure考虑第一种情况task失败。最常见的task 失败是在map或reduc...

2020-02-05 20:06:08 1059

原创修改aws emr系统datanode的ulimit值

1.hadoop用户登录到EMR集群的core节点2.执行sudo su命令切换到root用户3. 执行 echo ' * - nofile 65535' >> /etc/security/limits.conf4. reboot5.重新登录到hadoop用户，执行unlimit -n查看值是否生效6.执行sudo stop hadoop-hdfs-datanode...

2020-02-05 19:44:56 576 3

转载 Using a single hive warehouse for all EMR(Hadoop) clusters

s the EMR/Hadoop cluster’s are transient, tracking all those databases and tables across clusters may be difficult. So, Instead of having different warehouse directories across clusters, You can use a...

2020-02-04 23:44:33 186

转载 hive server 2 crashing with OutOfMemoryError (OOM) ?

ften times HiveServer2 can be single point of failure. It can easy crash with OOM. If HiveServer2 restarts now-and-then , it must be due to OOM where it is likely set to be killed and re-spawned. We n...

2020-02-04 23:41:18 2701

转载 Getting stack trace/Heap dump of a process in EMR

In latest EMR AMI’s , Different Applications like Hive and Hadoop are installed with corresponding Unix USERS.Example :Hive-server2process in run withhiveuser.To check the stack trace or heap ...

2020-02-04 23:31:51 279

转载 ENABLING DEBUG LOGGING – EMR MASTER GUIDE

Contains different configurations and procedures to enable logging on different daemons on AWS EMR cluster.[Please contribute to this article to add additional ways to enable logging]HBASE on S3 :...

2020-02-04 23:30:56 450

转载 Common issues of disk going full on EMR Cluster (or In general any Hadoop / Spark cluster)

A disk going full can make YARN on EMR UNHEALTHY. So, customer’s need to identify and proactively predict why each Application like Hadoop / Spark can occupy disk space and act accordingly. This Artic...

2020-02-04 23:14:59 1904

转载 Spark UI vs. Spark History Server UI

Is Job Running ?1. If you have Spark Applications Running, then you should be using SPARK UI. This UI is usually hosted on Spark Driver– In YARN cluster mode, the Driver is run on YARN Application...

2020-02-04 22:56:43 259

转载 EMR vCPU vCore issue

Several customer confuse when they see vCore’s used by EMR is different from what Ec2 vCPU’s. This article will clarify why EMR had to use vCore’s and some problems that exist with Instance Fleets and...

2020-02-04 22:45:52 455

转载 Difference between `yarn.scheduler.maximum-allocation-mb` and `yarn.nodemanager.resource.memory-mb`?

Consider in a scenario where you are setting up a cluster where each machine having 48 GB of RAM. Some of this RAM should be reserved for Operating System and other installed applications.yarn.nodem...

2020-02-04 00:28:29 639

转载 YARN之架构设计以及生产调优参数配置以及调度器

本节分为三部分：1.YARN架构设计2.YARN生产上资源管理--生产调优参数配置3.YARN生产上调度器YARN :Yet Another Resource Negotiator1.YARN架构设计（和上一篇的MapReduce其实是一样，在这里再过一遍）（当面试的时候，问到MapReduce job执行流程、MapReduceon yarn架构、...

2020-02-04 00:16:42 626

原创 HDFS中的文件访问权限

1.超级用户：启动namenode服务的用户就是超级用户, 该用户的组是supergroup，对于超级用户，系统不会执行任何权限检查，每个文件和目录都有所属用户、所属组别、模式。这个模式是由所属用户的权限、组内成员的权限以及其他用户的权限组成。2.文件权限管理文件或者目录被创建之时，服从BSD规则，owner是客户端进程的用户，group是父目录的group3.访问权限说明obje...

2020-02-03 14:12:33 1362