自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

遥望......

生活之道 智能之法

原创 大数据平台数据权限管理设计

背景和范围 当前大数据团队没有一个统一的操作权限控制和管理平台,对于分析师在服务器上的权限,目前都是给予对应分析节点的EC2机器账号,且为了方便操作和管理都是给予的管理员权限,因此安全性风险较大;对于数据开发者,主要通过分配IAM控制AWS的操作权限;对于team的所有人都是通过分配aws的ak...

2020-02-25 15:22:43 433 0

转载 埋点模型与管理平台

项目背景 来到我司的时候,虽然是一家在线教育行业,但基本没有互联网的基因,刚刚开始做数据埋点的工作。而且只是聚焦在上课教室内的核心指标埋点。当时对埋点这件事,有了一个基础的技术框架,也有了一个比较简陋的流程。但存在以下问题: 1需求环节:写prd的时候也比较繁琐,一个事件有时候上报字段多大20个...

2020-05-26 16:38:52 26 0

转载 scala中“=>”的4种使用场景

表示函数的返回类型(Function Type) scala> def double(x: Int): Int = x*2 double: (x: Int)Int //定义一个函数变量: scala> var x : (Int) => Int = double ...

2020-04-26 17:32:59 76 0

转载 EMR 上的 Spark 或 Hive 作业失败并出现 HTTP 503 “Slow Down” AmazonS3Exception

问题现象 java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Slow Down (Service: Amazon S3; Stat...

2020-04-24 09:39:20 72 0

转载 使用Hbase协作器(Coprocessor)同步数据到ElasticSearch

使用Hbase协作器(Coprocessor)同步数据到ElasticSearch 最近项目中需要将Hbase中的数据同步到ElasticSearch中,需求就是只要往Hbase里面put或者delete数据,那么ES集群中,相应的索引下,也需要更新或者删除这条数据。本人使用了hbase-rirv...

2020-04-19 22:25:13 56 0

转载 使用ES作为hbase的二级索引进行查询

先上代码,ES的工具类 /** * elasticsearch 工具类 */ public class elasticsearchUtil { private static TransportClient client = null; private static Settings bu...

2020-04-19 22:11:21 64 0

转载 org.apache.hadoop.security.AccessControlException: Permission denied: user=root

原因:hdfs上没有root用户,也没有对应的文件夹/user/root 会默认以root身份去将作业写入hdfs文件系统中,对应的也就是 HDFS 上的/user/xxx , 我的为/user/root, 由于root用户对hdfs目录并没有写入权限,所以导致异常的发生。而hdfs才有权限创建...

2020-04-12 12:54:18 50 0

转载 hbase性能调优

一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁...

2020-04-07 12:46:18 26 0

转载 git merge 和 git rebase 小结

git merge是用来合并两个分支的。 git merge b # 将b分支合并到当前分支 同样 git rebase b,也是把 b分支合并到当前分支 ----------------------------------- 他们的 原理 如下: 假设你现在基于远程分支"o...

2020-04-02 22:30:25 45 0

原创 hive-site.xml 参数设置

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the ...

2020-03-26 19:03:41 172 0

转载 Eureka的工作原理以及它与ZooKeeper的区别

1、Eureka 简介: Eureka 是 Netflix 出品的用于实现服务注册和发现的工具。 Spring Cloud 集成了 Eureka,并提供了开箱即用的支持。其中, Eureka 又可细分为 Eureka Server 和 Eureka Client。 1.基本原理 上图...

2020-03-26 17:30:30 43 0

原创 jedis使用scan替换keys

keys命令和scan命令区别 KEYS命令是将redis中所有的key与KEYS参数一一匹配,时间复杂度是O(N),耗费时间很少,使用也非常简单,一次性返回所有匹配的key,会阻塞服务,对服务器的性能影响较大,一般产线会禁止使用,该命令的使用方式是:KEYS PATTERN SCAN命令是将所...

2020-03-26 16:57:11 115 0

转载 Amazon AWS 中国区的那些"坑"

使用AWS 中国区有一段时间了, 期间踩过了一些坑. 简单写一下, 希望对别人有帮助. ** 文中一些主观猜测或者AWS 后续升级, 如有误导, 敬请见谅. Amazon S3 所有坑中, 最数 S3 坑多. 原因很简单: EC2的服务大不了大家在web console 里面点击鼠标, S3 ...

2020-03-26 13:35:19 788 0

转载 HBase最佳实践-内存规划

线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景,对多种工作模式...

2020-03-21 00:01:55 42 0

转载 SonarQube代码质量检查工具简介

Sonar (SonarQube)是一个开源平台,用于管理源代码的质量 Sonar 不只是一个质量数据报告工具,更是代码质量管理平台 支持Java, C#, C/C++, PL/SQL, Cobol, JavaScrip, Groovy 等等二十几种编程语言的代码质量管理与检测。 Sona...

2020-03-12 14:37:14 103 0

转载 远程仓库 & 分支管理&标签管理

远程仓库 到目前为止,我们已经掌握了如何在Git仓库里对一个文件进行时光穿梭,你再也不用担心文件备份或者丢失的问题了。 可是有用过集中式版本控制系统SVN的童鞋会站出来说,这些功能在SVN里早就有了,没看出Git有什么特别的地方。 没错,如果只是在一个仓库里管理文件历史,Git和SVN真没啥...

2020-03-09 23:56:07 53 0

转载 git分支管理策略

1总览 git的分支整体预览图如下: 从上图可以看到主要包含下面几个分支: master:git默认主分支(这里不作操作)。 stable:稳定分支,替代master,主要用来版本发布。 develop:日常开发分支,该分支正常保存了开发的最新代码。 feature:具体的功能开发分...

2020-03-08 22:50:20 57 0

转载 通过Hive JDBC提交的查询, 如何获取其在Yarn上的Application ID

数据平台上需要封装Hive查询,只提供API给业务方使用,代码中通过Hive JDBC完成将查询语句向Hive提交,等待执行完成,结果解析的功能. 用户提交查询之后意识到查询语句错误(非语法错误),不想等待错误的语句执行完成后再次提交. 由于用户没有yarn client的权限,kill task...

2020-02-25 16:16:43 302 0

原创 hive server日志配置

HiveServer2操作日志可用于Beeline客户端(Hive 0.14以上)。这些参数配置记录: hive.server2.logging.operation.enabled hive.server2.logging.operation.log.location hive.server2....

2020-02-25 15:20:12 221 0

转载 yarn-cluster模式提交Spark任务,如何关闭client进程?

问题: 最近现场反馈采用yarn-cluster方式提交spark application后,在提交节点机上依然会存在一个yarn的client进程不关闭,又由于spark application都是spark structured streaming程序(application常年累月的执行)...

2020-02-15 14:14:40 144 0

转载 Hive用户权限管理理解

HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制...

2020-02-10 15:53:46 196 0

转载 hadoop作业reduce过程调优使用到的参数笔记

reduce的运行是分成三个阶段的。分别为copy->sort->reduce。 由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition, 所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。 所以,为了优化...

2020-02-07 22:42:02 48 0

转载 浅谈Spark On Yarn 中的延迟调度问题

延迟调度算法思想十分简单,为了实现data locality(即该task所需数据就在其运行的机器上),会尽量将task分布到有其所需数据的机器或者jvm中去,如果机器或者jvm已被占用就进行延迟等待,直到该机器或者jvm可以运行该task或者超过等待时限则将task运行到其他机器上。 这个想法基...

2020-02-06 10:55:40 125 0

转载 Capacity Scheduler的队列属性介绍

概述   本文基于 Apache hadoop 3.1.1 版本对Capacity Scheduler队列属性进行说明介绍。队列的部分属性对应于Yarn web中展示的队列信息。下表是Yarn web中的队列信息示例,在后面的队列属性介绍中,会指出属性对应于队列信息的哪个指标(如果有的话)。 Q...

2020-02-06 10:36:04 138 0

转载 Hive analyze命令解析

关于Hive analyze命令 1. 命令用法: 表与分区的状态信息统计 ANALYZE TABLE tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] COMPUTE STATISTICS [noscan]; 列信息统计 A...

2020-02-06 00:08:34 91 0

转载 Improving Hive Performance with S3/ADLS/WASB

Tune the following parameters to improve Hive performance when working with S3, ADLS or WASB. ​ Table7.1.Improving General Performance Parameter ...

2020-02-05 23:36:52 43 0

原创 如何加速hive msck?

You can increase the value of thehive.metastore.fshandler.threadsparameter to increase the number of threads used for scanning the partitions in the ...

2020-02-05 23:32:37 72 0

转载 MapReduce的容错机制

Failures 在现实世界中,难免遇到用户代码错误、进程崩溃、机器宕机等情况。使用Hadoop的一个好处是它有能力处理这些失败,使你的job能够成功完成。我们需要考虑以下实体的失败:task、application master、node manager 、resource manager。 ...

2020-02-05 20:06:08 120 0

原创 修改aws emr系统datanode的ulimit值

1.hadoop用户登录到EMR集群的core节点 2.执行sudo su命令切换到root用户 3. 执行 echo ' * - nofile 65535' >> /etc/security/limits.conf 4. reboot 5.重新登录到had...

2020-02-05 19:44:56 172 3

转载 Using a single hive warehouse for all EMR(Hadoop) clusters

s the EMR/Hadoop cluster’s are transient, tracking all those databases and tables across clusters may be difficult. So, Instead of having different w...

2020-02-04 23:44:33 46 0

转载 hive server 2 crashing with OutOfMemoryError (OOM) ?

ften times HiveServer2 can be single point of failure. It can easy crash with OOM. If HiveServer2 restarts now-and-then , it must be due to OOM where...

2020-02-04 23:41:18 82 0

转载 Getting stack trace/Heap dump of a process in EMR

In latest EMR AMI’s , Different Applications like Hive and Hadoop are installed with corresponding Unix USERS. Example :Hive-server2process in run w...

2020-02-04 23:31:51 50 0

转载 ENABLING DEBUG LOGGING – EMR MASTER GUIDE

Contains different configurations and procedures to enable logging on different daemons on AWS EMR cluster. [Please contribute to this article to add...

2020-02-04 23:30:56 143 0

转载 Common issues of disk going full on EMR Cluster (or In general any Hadoop / Spark cluster)

A disk going full can make YARN on EMR UNHEALTHY. So, customer’s need to identify and proactively predict why each Application like Hadoop / Spark ca...

2020-02-04 23:14:59 82 0

转载 Spark UI vs. Spark History Server UI

Is Job Running ? 1. If you have Spark Applications Running, then you should be using SPARK UI. This UI is usually hosted on Spark Driver – In YARN ...

2020-02-04 22:56:43 49 0

转载 EMR vCPU vCore issue

Several customer confuse when they see vCore’s used by EMR is different from what Ec2 vCPU’s. This article will clarify why EMR had to use vCore’s an...

2020-02-04 22:45:52 72 0

转载 Difference between `yarn.scheduler.maximum-allocation-mb` and `yarn.nodemanager.resource.memory-mb`?

Consider in a scenario where you are setting up a cluster where each machine having 48 GB of RAM. Some of this RAM should be reserved for Operating S...

2020-02-04 00:28:29 128 0

转载 YARN之架构设计以及生产调优参数配置以及调度器

本节分为三部分: 1.YARN架构设计 2.YARN生产上资源管理--生产调优参数配置 3.YARN生产上调度器 YARN :Yet Another Resource Negotiator 1.YARN架构设计 (和上一篇的MapReduce其实是一样,在这里再过一遍) (当面试的...

2020-02-04 00:16:42 137 0

原创 HDFS中的文件访问权限

1.超级用户:启动namenode服务的用户就是超级用户, 该用户的组是supergroup,对于超级用户,系统不会执行任何权限检查,每个文件和目录都有所属用户、所属组别、模式。这个模式是由所属用户的权限、组内成员的权限以及其他用户的权限组成。 2.文件权限管理 文件或者目录被创建之时,服从B...

2020-02-03 14:12:33 142 0

转载 解决HUE使用sparksql查询无法显示元数据的问题

要解决的问题 image.png image.png 解决方法: 1、首先你的hive肯定要能用,我们就是将spark的元数据查询请求转换为hive的元数据请求 2、操作步骤: cd hue/build/static/desktop/js vi apiHelper.js ...

2020-01-10 23:24:05 210 4

提示
确定要删除当前文章?
取消 删除