自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 论坛 (1)

原创 Impala实践之十五:Impala使用文档

前言Impala集群中有两台机器的Impala Daemon不能正常启动,记录一下整个过程和解决方式。过程阶段一Impala集群的状态开始飘红,有两台节点不能正常使用。这时候发现集群里面有十多个任务正在运行,任务执行时间很长,情况非常不正常。看了一下sql的内容,有几个sql的确比较耗资源。阶段二此时,我先通知不要提交sql,给修复问题留点时间。正在重启不健康的节点,群里面就有人继续提交了不合理的s

2016-08-31 15:50:21 3688

原创 Impala实践之十四:一次Impala节点故障记录(不能启动)

前言Impala集群中有两台机器的Impala Daemon不能正常启动,记录一下整个过程和解决方式。过程阶段一Impala集群的状态开始飘红,有两台节点不能正常使用。这时候发现集群里面有十多个任务正在运行,任务执行时间很长,情况非常不正常。看了一下sql的内容,有几个sql的确比较耗资源。阶段二此时,我先通知不要提交sql,给修复问题留点时间。正在重启不健康的节点,群里面就有人继续提交了不合理的s

2016-08-25 18:35:29 4392

原创 Impala实践之十三:Impala建表时的关键字

前言由于经常要帮数据分析抽表,因此自己写了个自动生成impala和sqoop脚本的工具,结果今天发现一个库中17张表,只成功导入了12张。仔细检查才发现是是由于impala建表时候字段使用了location关键字的原因。分析建表语句impala-shell -i ip:25004 -q "DROP TABLE IF EXISTS database.table;CREATE EXTERNAL TA

2016-08-21 11:27:46 8024

原创 Impala实践之十二:impala压缩方式测试

前言测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。在impala中直接建内部表。测试 存储格式 压缩格式 文件大小 建表时间 textfile none 3.0 G 38.74s parquet none 1.5 G 32.33s parquet snappy 709.3 M 31.71

2016-08-21 11:27:17 3687

原创 Impala实践之十一:parquet性能测试

前言之前一直考虑更换impala的文件存储格式为parquet,但是没有立即使用,最近又做了一些测试,看看parquet是否真的有用。在测试的时候顺便测了一下compute语句的效果,一起作为参考。下面抽出一个小业务的部分测试结果来展示。测试准备库名和表名当然不是真的。测试范围:文件格式:parquet和textcompute语句的影响测试用表: 表名 行数 字段数 物理存储大

2016-08-21 11:26:40 4597

原创 Impala实践之十:impala最佳实践(转、译、整理)

前言最近在看impala原理时候翻出来的一些tip,帮助更好地使用impala,自己整理一下。0x01 杂项1. Impala 使用缓存吗?Impala 不会缓存数据,但它缓存一些表和文件的元数据。尽管因为数据集被缓存到 OS 的缓冲区中,接下来的重复查询可能运行的更快,Impala 不会明确的控制这些。0x02 Impala任务失败1. 为什么 SELECT 查询会失败?当一个 SELECT 语句

2016-08-19 15:42:26 4364

原创 Impala实践之九:invalidate metadata详细使用方法说明

前言Impala一直是我们各个业务使用的重点,但是在Impala的使用上感觉一直不是很成熟,比如说 invalidate metadata操作,到底什么时候该使用-r参数,什么时候不使用,什么时候可以用refresh代替,什么时候不可以,这一直是一个问题。因此有了这次的测试。这次的测试目的就是为了对Impala的元数据方面的使用进行一个彻底的测试,给出一个比较明确答复。在最大的成都上来减缓Impal

2016-08-19 15:41:57 1717

原创 Spring Data Rest如何暴露ID字段

前言为了懒省事,使用Spring Data Rest来直接提供rest接口,重点遇到点小坑,记录一下。记录问题entity:@Entity@Table(name = "db_table")public class DBTable { @Id @GeneratedValue(strategy = GenerationType.AUTO) private Integer tab

2016-08-18 18:49:25 3747 5

原创 Impala实践之八:脚本中引号问题

前言写脚本,遇到一个小坑,python和seven帮忙填了一下,突然想起来之前貌似遇到过类似的情况。版本一脚本:sql=$1coordinator=$2output_file=$3echo $sqlecho "------"echo $output_fileecho "------"echo $coordinatorimpala-shell -i $coordinator -q $sql

2016-08-18 12:53:14 2661

原创 Impala实践之七:添加负载均衡

前言impala的负载均衡,使用haproxy来做,主要是比较简单。安装后做一个小配置就行。主要用的就是haproxy四层交换机的特性,讲所有指向haproxy主机和端口的请求,转发到相应的主机:端口上。cdh官网里面的信息已经比较久了,有些配置需要改,因此做一个笔记。impala负载安装haproxyyum install haproxy配置文件vim /etc/haproxy/haproxy.c

2016-08-18 12:52:31 2562

原创 Impala实践之六:使用Rest Api

前言上次的impala状况出现后,决定自己做一套impala的管理系统,那么首先面临的一个问题就是获取impala的各种状态,比如任务执行状态。经过一天多的尝试,总结一下。hue:可以使用hue的脚本,hue使用python编写,其中有一个beeswax模块,负责任务的执行等。缺点是没发现java的api。cloudera manager java api:java可以调用cm原生的api,需要

2016-08-18 12:51:20 4743 4

原创 Impala实践之五:一次系统任务堵塞记录 + 思考

前言前段时间,imppala资源告警,各种任务失败,查询堵塞,因此公司集群升级。这次迁移的确必须,因为当时的集群规模很小,资源太紧张了。迁移集群后,今天集群再次出问题,导致一个下午没什么事都没干,查了一下午的错误。事件发展1.阶段一:下午2点17分数据组反映集群崩溃,HUE界面不能登录,登录之后刷不出来表,当然也不能提交数据。查看各种log日志、任务信息,发现事件发生前后有两个现象:有一个admi

2016-08-15 13:19:11 3522

原创 Impala实践之四:记一次Impala报错的处理和分析过程

前言impala集群出错的一次记录和解决方法以及解决思路。错误记录错误信息Memory limit exceeded Cannot perform hash aggregation. Partitioned input data too many times. This could mean there is too much skew in the data or the memory limit

2016-08-10 12:37:17 2820 1

原创 Impala实践之三:详解invalidate metadata

前言这次主要是想通过源码找到invalidate metadata执行的原理,由于不太懂java和c++的互调的细节,目前只能查找到如下阶段,后面会专门看一下java的jni以及thrift的原理。分析目前主要定位到三个类,com.cloudera.impala.service.JniCatalog,com.cloudera.impala.service.CatalogOpExecutor和com.

2016-08-10 12:36:54 4392 2

原创 Leetcode:19. Remove Nth Node From End of List

0X01 题目 Given a linked list, remove the nth node from the end of list and return its head. For example, Given linked list: 1->2->3->4->5, and n = 2. After removing the second node from

2016-08-10 12:35:41 382

原创 Impala实践之二:Hive元数据

0x00 前言深入学习Impala的最主要一个原因就是目前在使用Impala的时候遇到了各种了性能问题,之前定位过一次问题,猜测其性能损耗的一个主要原因在INVALIDATE METADATA和-r参数上,但是对此并不是十分理解,因此需要深入一点底理解这些概念,方面更准确地定位问题。下面将从三个角度来分析Impala元数据:Hive元数据库、INVALIDATE METADATA语句和REFRESH

2016-08-08 19:08:02 6161

原创 Impala实践之一:基本原理

0x00 前言最近在使用impala,顺便学习一下相关的原理部分。下面的组织结构会先介绍一下impala的大致原理和涉及的技术,然后对每块涉及到的技术做一个梳理,最后再深入一点impala的原理。impala是什么开源数据库系统类MPP并行数据库执行Dremel系基于hadoop0x01 MPP一、服务器三大体系:SMP、NUMA、MPP从系统架构来看,商用服务器大体可以分为三类:SMP

2016-08-08 19:07:35 4326

原创 Leetcode:136. Single Number

0X01 题目 Given an array of integers, every element appears twice except for one. Find that single one. Note: Your algorithm should have a linear runtime complexity. Could you implement it wi

2016-08-08 19:06:37 387

原创 presto错误记录

前言presto安装过程中错误记录。错误记录1.错误:1) Error: Defunct property 'task.max-memory' (class [class com.facebook.presto.execution.TaskManagerConfig]) cannot be configured. at com.facebook.presto.server.ServerMainM

2016-08-05 20:23:14 6109 6

原创 使用presto+airpal+hive打造即席查询工具

0X01 前言即席查询怎么做、怎么选型!这次用的是presto来做尝试。缘起公司是Impala的深度用户,我主要负责Impala的各方面的工作,最近因为一些特殊原因需要对现有的体系进行一些调整,需要做出来即席查询的组件,在spark sql、impala、dril、impala之间做了一些调研后,暂时决定使用presto来做一些尝试。原因有下面几个:没有和cdh绑定那么深,用起来比较简单。可以同

2016-08-05 20:20:51 10908

原创 LeetCode:237. Delete Node in a Linked List

0X01 题目 Write a function to delete a node (except the tail) in a singly linked list, given only access to that node. Supposed the linked list is 1 -> 2 -> 3 -> 4 and you are given the third node

2016-08-05 12:46:34 476

原创 LeetCode:328. Odd Even Linked List

0X01 题目 Given a singly linked list, group all odd nodes together followed by the even nodes. Please note here we are talking about the node number and not the value in the nodes. You should try

2016-08-05 12:45:52 499

原创 LeetCode:206. Reverse Linked List

0X01 题目 Reverse a singly linked list. Hint: A linked list can be reversed either iteratively or recursively. Could you implement both?0X02 题意单链表反转。0X03 题解1.迭代(Dante:Java)从论坛里面学来的一种解法。这种方法会

2016-08-05 12:45:15 513

原创 数据研发工作阶段性总结:(2015-12-21 至 2016-08-04)

前言中午在看书,看着看着就不自觉地想起来自己从入职至今的工作情况了。在工作的过程中,有过对工作性质的质疑、对自己能力的不自信、对前景的担忧,想想还是挺好玩的。趁着脑子比较飘忽,总结一下工作的情况吧。总结的角度主要站在集群管理员的角度。工作2015年12月21日,我以校招生的身份入职,先有共三个月试用(+实习)期。工作的初期定位是研发,负责小组的部分内部系统开发,以数据流的处理为主。集群迁移:前两周的

2016-08-04 13:38:22 765

原创 LeetCode:121. Best Time to Buy and Sell Stock

0X01 题目 Say you have an array for which the ith element is the price of a given stock on day i. If you were only permitted to complete at most one transaction (ie, buy one and sell one share of

2016-08-03 14:15:49 371

原创 LeetCode:274. H-Index

0X01 题目 Given an array of citations (each citation is a non-negative integer) of a researcher, write a function to compute the researcher’s h-index. According to the definition of h-index on Wik

2016-08-03 14:15:29 412

原创 LeetCode:1. Two Sum

0X01 题目Question Two Sum Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input would have exactly one solut

2016-08-03 14:14:57 474

空空如也

木东居士的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除