- 博客(14)
- 资源 (5)
- 收藏
- 关注
转载 hive中UDF、UDAF和UDTF详解
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Jav
2015-06-25 15:58:36 2463
转载 Oracle停掉一个正在运行的job
今天碰到一个这个问题,由于一个job执行的时间过长,所以打算将其分为几块去执行,这个job又是每天按时执行的。下面来看怎么实现:第一步:查看正在运行的jobsSQL>select * from dba_jobs_running;然后确定你要停止的job,这个数据字典对应的job就是下面要执行的过程的第一个参数。第二步:确定要停掉的job的SI
2015-06-19 10:50:23 1221
转载 hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数
2015-06-18 17:18:40 325
转载 UML六大关系(依赖、类属、关联、实现、聚合和组合)
UML定义的关系主要有六种:依赖、类属、关联、实现、聚合和组合。这些类间关系的理解和使用是掌握和应用UML的关键,而也就是这几种关系,往往会让初学者迷惑。这里给出这六种主要UML关系的说明和类图描述,一看之下,清晰明了;以下就分别介绍这几种关系: 继承 指的是一个类(称为子类、子接口)继承另外的一个类(称为父类、父接口)的功能,并可以增加它自己的新功能的能力,继承是类与
2015-06-17 10:18:01 3661
转载 Hadoop 2.0 NameNode HA和Federation实践
一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可HDFS的新功能已经基本可用,尤其是其中的的High Availability
2015-06-15 13:10:33 416
转载 HDFS Federation(HDFS 联盟)介绍
张贵宾[email protected]. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。1.1 命名空间管理HDFS的命名空间包含目录
2015-06-15 13:09:33 347
原创 HBase物理结构理解以及与ORACLE特性分析
1 我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别? 答:首先Hbase中的一个“元素”是由行键、列族名、限定符、时间戳唯一标识的并且行键作为数据行在表里的唯一标识,我们只有通过行键来访问列族别无他法。修改数据:我们先找到要修改的行键把新的数据记录追加到对应的列族中并打上一个新时间戳代表最新版本。删除数据:
2015-06-08 13:11:23 603
转载 Sqoop-1.4.4工具import和export使用详解
Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到Hadoo
2015-06-06 14:52:16 416
转载 数据库设计三大范式
为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。 在实际开发中最为常见的设计范式有三个:1.第一范式(确保每列保持原子性)第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值
2015-06-05 15:58:07 290
原创 Tomcat启动时,报java.io.EOFException异常
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2279) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.jav
2015-06-05 11:01:20 702 1
转载 Hive 查询语法大集合
SELECT … FROM Clauses[sql] view plaincopyprint?hive> SELECT name, salary FROM employees; 表别名[sql] view plaincopyprint?hive> SEL
2015-06-03 14:38:51 1359
转载 hive load data
一、 创建表 在官方的wiki里,example是这样的:Sql代码 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment]
2015-06-03 14:37:27 639
ssh-upgrade.zip
2020-04-23
Java面试宝典2019完整版
2018-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人