自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 资源 (30)
  • 论坛 (1)
  • 收藏
  • 关注

转载 hadoop深入研究:(九)——mapreduce中的压缩

转载请注明出处:http://blog.csdn.net/lastsweetop/article/details/9187721作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.out

2013-12-31 15:21:45 7243

原创 设定Hive参数

开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什么设定的参数没有起作用?这通常是错误的设定方式导致的。对于一般参数,有以下三种设定方式:配置文件命令行参数参数声明1、配置文件:    Hive的配置文件包括用户自定义配置文件:$HIVE_CO

2013-12-27 14:26:11 992

原创 Hive处理小文件

Hive中处理小文件

2013-12-27 13:12:09 1830

转载 HIVE中UDTF编写和使用

1. UDTF介绍UDTF(User-Defined Table-Generating Functions)  用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process,

2013-12-26 09:56:09 3205

转载 Hive Lateral view介绍

1). Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)*2). Lateral View用于UDTF(user-defined table

2013-12-26 09:43:41 13869

转载 Hbase 介绍

一、Hbase发展历史    started by chad walters and jim    2006.11 G release paper on BigTable    2007.2 inital HBase prototype created as Hadoop contrib    2007.10 First useable Hbase    2

2013-12-26 09:23:59 947

转载 hbase shell 基础和常用命令详解

HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库

2013-12-26 09:23:01 10174

转载 Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase

数据源格式如下:120130512    1   -1  -1  13802   1   2013-05-12 07:26:22220130512    1   -1  -1  13802   1   2013-05-12 11:18:24我们期待的结果是数据直接从 hdfs 读取后

2013-12-26 09:22:35 2801

转载 HBase 写优化之 BulkLoad 实现数据快速入库

转自 http://my.oschina.net/leejun2005/blog/187309目录[-]1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?2、bulkload 流程与实践3、说明与注意事项:4、Refer:1、为何要 BulkLoad 导入?传统的

2013-12-26 09:21:55 17001

转载 Hive – Group By 的实现

准备数据SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;hive> SELECT * FROM logs;a 苹果 5a 橙子 3a 苹果 2b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;

2013-12-24 16:58:07 1638

转载 解析 Java 类和对象的初始化过程

原帖地址 :http://www.ibm.com/developerworks/cn/java/j-lo-clobj-init/#N1008B由一个单态模式引出的问题谈起类的初始化和对象初始化是 JVM 管理的类型生命周期中非常重要的两个环节,Google 了一遍网络,有关类装载机制的文章倒是不少,然而类初始化和对象初始化的文章并不多,特别是

2013-12-24 16:12:39 1005

转载 37条常用Linux Shell命令组合

序号任务命令组合1删除0字节文件find . -type f -size 0 -exec rm -rf {} \;find . type f -size 0 -delete2查看进程,按内存从大到小排列ps -e -o “%C : %p : %z : %a”|sort -k5 -nr3按cp

2013-12-24 16:11:19 601

转载 Linux 下常用的 19 条命令

玩过Linux的人都会知道,Linux中的命令的确是非常多,但是玩过Linux的人也从来不会因为Linux的命令如此之多而烦恼,因为我们只需要掌握我们最常用的命令就可以了。当然你也可以在使用时去找一下man,他会帮你解决不少的问题。然而每个人玩Linux的目的都不同,所以他们常用的命令也就差异非常大,而我主要是用Linux进行C/C++和shell程序编写的,所以常用到的命令可以就会跟一个管理Li

2013-12-24 16:09:43 770

转载 shell脚本超时控制

写脚本的时候,经常需要用到超时控制。看《shell专家编程》时看到一个好例:修改了一下,1.超过timeout时间还没执行完,则kill进程,发邮件告警: set -xmailSend(){        mailContent="xxxx Web response time over 5 seconds"        echo $mailContent | mail -s

2013-12-24 16:08:11 13037

转载 详细介绍Linux重定向的使用

Linux重定向是指修改原来默认的一些东西,对原来系统命令的默认执行方式进行改变,比如说简单的我不想看到在显示器的输出而是希望输出到某一文件中就可以通过Linux重定向来进行这项工作。  Linux默认输入是键盘,输出是显示器。你可以用重定向来改变这些设置。比如用wc命令的时候本来是要手动输入一篇文字来计算字符数的,用了重定向后可以直接把一个已经写好的文件用‘  STDIN

2013-12-23 13:44:52 718

原创 hive使用本地模式

hive使用本地模式

2013-12-17 20:50:27 23299 1

原创 Hive函数大全

目录一、关系运算:...41. 等值比较: =.42. 不等值比较: .43. 小于比较: .44. 小于等于比较: .45. 大于比较: >.56. 大于等于比较: >=.57. 空值判断: IS NULL.58. 非空判断: IS NOT NULL.69. LIKE比较: LIKE.610. JAVA的LIKE

2013-12-17 14:18:06 165902

转载 hive SQL优化之distribute by和sort by

最近在优化hiveSQL,下面是一段排序,分组后取每组第一行记录的SQLINSERT OVERWRITE TABLE t_wa_funnel_distinct_temp PARTITION (pt='${SRCTIME}') SELECT     bussiness_id,     cookie_id,     session_id,     funnel_id,     group_

2013-12-17 09:42:18 1715

转载 hive 查询显示列名 及 行转列显示

hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,应同事要求,看了HIVE CLI源码,做了下些许调整, 加入列头打印及行转列显示功能未开启行转列功能之前:hive>      >      > select * from example_table where dt='2012-03-31-02' limit 2;

2013-12-17 09:28:59 4523

转载 mapreduce作业优化-MultithreadedMapRunner

最近日志解析框架新接入一种日志, 这些原始日志是经过加密的, mr程序解析时需要先解密再解析,实际解析过程中发先原始日志量并不大(30W), 但解析花费时间较长, 经分析,是解密操作比较耗CPU时间, 想到的一种解决方案是在日志采集阶段将日志分散到多个小文件,这样可以充分利用多map并行的优势,但缺点也很明显, HDFS系统将存在很多小文件,对namenode造成负担,同时这个方案需要修改日志采集

2013-12-17 09:26:46 1122

转载 hive 结合执行计划 分析 limit 执行原理

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://yaoyinjie.blog.51cto.com/3189782/923378   在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的

2013-12-17 09:24:54 1266

转载 面试10大算法汇总+常见题目解答

以下用Java角度解释面试常见的算法和数据结构:字符串,链表,树,图,排序,递归 vs. 迭代,动态规划,位操作,概率问题,排列组合,以及一些需要寻找规律的题目。1. 字符串和数组首先需要注意的是和C++不同,Java字符串不是char数组。没有IDE代码自动补全功能,应该记住下面的这些常用的方法。toCharArray() //获得字符串对应的char数组

2013-12-17 09:16:31 832

转载 深入理解Java中的final关键字

Java中的final关键字非常重要,它可以应用于类、方法以及变量。这篇文章中我将带你看看什么是final关键字?将变量,方法和类声明为final代表了什么?使用final的好处是什么?最后也有一些使用final关键字的实例。final经常和static一起使用来声明常量,你也会看到final是如何改善应用性能的。final关键字的含义?final在Java中是一个保留的关键字,可

2013-12-16 20:45:51 671

转载 hive join

hive(0.9.0):1.支持equality joins, outer joins, and left semi joins2.只支持等值条件3.支持多表join原理hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。eg:SELECT a.val

2013-12-16 19:47:09 854

转载 Hive的JOIN用法

Hive表连接的语法支持如下:Sql代码  join_table:      table_reference JOIN table_factor [join_condition]    | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition    | ta

2013-12-16 19:34:44 12062

转载 Hive性能调校

1.      设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive>

2013-12-16 17:34:45 7398

转载 hive case when 引发错误一例

今天发现hive 在使用 case when then else end 方式下会存在BUG, 具体表现如下,现有表: t_aa_pc_log, 其中一个字段为channel, 当channel值为'NA'或者'EMPTY'时设置为'A', 其他值设置为'B', 然后输出channel值为'A'的前10个记录查询一:根据需求写出SQL:select a.channel from

2013-12-16 10:27:35 17328 2

转载 Java高效计数器

翻译人员: 铁锚翻译时间: 2013年11月3日原文链接: Efficient Counter in Java我们经常使用 HashMap作为计数器(counter)来统计数据库或者文本中的某些东西.本文将使用HashMap来实现计数器的3种不同方式进行对比。1. 新手级计数器如果使用这一类别的计数器,那么代码大致如下所示:[java] view

2013-12-15 20:55:31 767

转载 深入理解Arrays.sort()

翻译人员: 铁锚翻译日期: 2013年11月16日原文链接: Deep Understanding of Arrays.sort(T[], Comparator c)Arrays.sort(T[], Comparator c) 方法用于对象数组按用户自定义规则排序.官方Java文档只是简要描述此方法的作用,并未进行详细的介绍,本文将深入解析此方法。1. 简单示例

2013-12-15 20:38:31 929

转载 Arrays工具类十大常用方法

翻译人员: 铁锚翻译日期: 2013年11月19日原文链接: Top 10 Methods for Java Arrays以下是由 stackoverflow 网站 投票决出的Java数组最常用的十个方法, 0. 声明数组[java] view plaincopyString[] aArra

2013-12-15 20:28:05 1553

转载 使用 JAVA 中的动态代理实现数据库连接池

数据库连接池在编写应用服务是经常需要用到的模块,太过频繁的连接数据库对服务性能来讲是一个瓶颈,使用缓冲池技术可以来消除这个瓶颈。我们可以在互联网上找到很多关于数据库连接池的源程序,但是都发现这样一个共同的问题:这些连接池的实现方法都不同程度地增加了与使用者之间的耦合度。很多的连接池都要求用户通过其规定的方法获取数据库的连接,这一点我们可以理解,毕竟目前所有的应用服务器取数据库连接的方式都是这种方式

2013-12-15 19:36:26 1106

原创 Linux du命令和df命令区别

du,disk usage,是通过搜索文件来计算每个文件的大小然后累加,du能看到的文件只是一些当前存在的,没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。        df,disk free,通过文件系统来快速获取空间大小的信息,当我们删除一个文件的时候,这个文件不是马上就在文件系统当中消失了,而是暂时消失了,当所有程序都不用时,才会根据OS的规则释放掉已经删除的文件

2013-12-14 11:20:51 41192 2

原创 hive 使用lzo遇到的一个奇怪的问题

hive 使用lzo遇到的一个奇怪的问题

2013-12-13 17:16:35 2471 1

原创 hive优化方式和使用技巧

部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1. 基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。     DESCRIBE FUNCTION;(2)A

2013-12-13 14:31:08 20620 2

转载 tr命令

写Bash Shell脚本,大小写转换通常这样做:str="This is a Bash Shell script."newstr=`tr '[A-Z]' '[a-z]' 今天看bash的man page,发现有更简单的方法转小写,只需要将变量名字declare -l 后,再给变量赋值,变量的内容即为小写转大写,只需要将变量名字declare -u后,再给变

2013-12-12 22:46:09 835

转载 Pig、Hive、MapReduce 解决分组 Top K 问题

问题:有如下数据文件 city.txt (id, city, value)cat city.txt 1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条value最大的记录。1、这是实际业务

2013-12-09 21:55:52 5579

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2013-12-09 21:37:33 1204

转载 BloomFilter 简介及在 Hadoop reduce side join 中的应用

1、BloomFilter能解决什么问题?      以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理      1. 初始化一个数组, 所有位标为0,  A={x1, x2, x3,…,xm}  (x1, x2, x3,…,xm 初始为0)      2. 将已知集合S中的每一个数组, 按以下方式映射到A中           2.0  

2013-12-09 21:21:59 3886 3

转载 shell中if条件字符串、数字比对,[[ ]]和[ ]区别

引用:http://www.51testing.com/?uid-7701-action-viewspace-itemid-13731http://blog.csdn.net/sunboy_2050/article/details/6836382shell 括号学习shell的时候总是被shell里的条件判断方式搞得头疼,经常不知道改 用[],[

2013-12-09 13:24:51 845

转载 如何在Hadoop中控制Map的数量

很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导

2013-12-08 22:02:38 910

git详细中文教程

这本书的作者是github的员工。书写得非常棒,对分支等的讲解使用了很多配图,简单明了,把原理讲得非常易懂。 这书还有一个非常棒的部分就是针对不同的使用场景,设计了几个合适的版本管理策略,比如私有小项目该用什么方式控制,公共项目该用什么方式控制等,这个非常实用。 了解Git的使用,这一本书基本就够了,入门+进阶~

2014-03-28

hive函数大全 函数参考

hive函数大全 ,非常全的文档!

2013-12-17

BIEE11g 详细安装文档

BIEE11g非常详细的安装文档,亲自安装成功!

2013-11-08

BIEE11g 入门培训

BIEE11g 入门培训,非常适合初学者入门~

2013-11-08

数据结构(C语言版) 严蔚敏 吴伟民 带书签

数据结构(C语言版) 严蔚敏 吴伟民 带书签,清华大学出版的,经典教材

2013-04-10

Weka源代码详细分析系列

Weka源代码详细分析系列,和http://download.csdn.net/download/mythee/2238812里面是一模一样的,介绍的非常详细

2012-05-08

编程之美-微软技术面试心得

编程之美-微软技术面试心得,高清版,不知道这本书的自行百度之!

2012-04-18

junit 3.8 jar包

junit 3.8 jar包

2012-04-05

sqlserver jar包 jdbc驱动

sqlserver jar包 jdbc驱动

2012-04-05

oracle jar包 jdbc驱动程序

oracle jar包 jdbc驱动程序!java开发常用jar包

2012-04-05

ant apache 1.7 jar

ant apache 1.7 jar!java web开发常用jar包

2012-04-05

mysql jdbc驱动程序 jar包

mysql-connector-java-5.0.8-bin.jar mysql驱动程序 jar包

2012-04-05

Stuct2权威指指南完整版上

讲的是Struct2,非常适合初学者

2012-03-05

java rmi详解

java rmi 远程方法调用的例子,讲解的很详细!

2012-03-05

java spring全解 详细教程 原理

讲解spring的资料,非常适合初学者!!!

2012-03-05

poi xssf hssf excel 教程

java操作EXCEL的工作,包含详细的例子,很适合入门学习!

2011-10-30

poi excel 实战例子详解

poi操作excel的例子,讲的很详细,很适合入门者看!!!

2011-10-30

JAVA与模式 带标签 清晰版 阎宏

JAVA与模式,带标签,很清楚!讲解讲的很详细,例子也很好!

2011-10-24

设计模式可复用面向对象软件的基础

设计模式的开山之作,一句话:没看过此书,不要说懂设计模式!

2011-10-24

数据挖掘概念技术资料

数据挖掘的基本概念和技术,很适合入门的资料!!!!!!!!!

2011-10-24

LDAP 资料代码实例

关于LDAP的资料,经常用的,包含新建,查询,删除,修改

2011-10-04

LDAP 资料代码实例

关于LDAP的资料,经常用的,包含新建,查询,删除,修改

2011-10-04

LDAP 资料代码实例

关于LDAP的资料,经常用的,包含新建,查询,删除,修改

2011-10-04

java 反射机制例子

讲解了JAVA中反射机制,包含例子,代码!对初学者很有用

2011-10-04

java 泛型例子实例

JAVA介绍泛型,讲解的比较详细,带例子

2011-10-04

java io输入输出流介绍

讲解了JAVA中io操作,包含例子,代码!对初学者很有用

2011-10-04

java8 32位 64位 jdk8 最新下载地址

java8 32位 64位 jdk8 最新下载地址

2018-01-06

阿里巴巴Java开发手册V1.2.0

阿里巴巴Java开发手册V1.2.0

2017-05-24

protobuf-2.5.0.tar.gz

protobuf-2.5.0.tar.gz

2015-07-06

rpmbuild-demo工程

一个rpm build打包的示例工程,下载完成后可以解压成/home/wang/rpmbuild目录,然后到SPEC目录中执行rpmbuild -ba dteworker-client.spec 即可完成打包

2015-01-21

wisgood的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除