排序:
默认
按更新时间
按访问量

hive优化(1)

1 sql书写规范 尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区。 案例: SELECT a.key,col1,col2,col3,col4 FROM    A a    LEFT OUTER JOIN    B b  ON a.ke...

2017-12-29 18:45:57

阅读数:95

评论数:0

druid原理

Durid是在2013年底开源出来的,当前最新版本0.9.2, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。对比Druid与其他解决方案,Kylin对数据按照分区每天构建前一天的cube数据提供给用户查询,用户查询的是历史数据。而Druid不...

2017-11-17 18:09:51

阅读数:310

评论数:0

数据仓库的模型设计

数据仓库的模型设计 A. 数据建模方法论 数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。 模型设计分为三个阶段: 1,概念模型 对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。 一般划分为8个主题域: 客户、服务、服务使用、账务、结算、...

2016-07-27 16:10:33

阅读数:374

评论数:0

HBase详解:HBase体系结构

1.HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtabl...

2016-07-26 17:58:24

阅读数:466

评论数:0

HIVE 窗口及分析函数 应用场景

窗口函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询   一、分析函数 用于等级、百分点、n分片等。 函数 说明 RANK() 返回数据项在分组中的排名,排名...

2015-04-17 10:31:55

阅读数:347

评论数:0

git

GIT是非常优秀的版本控制工具,但是苦于git那晦涩难懂的man pages,还有众多的命令选项和怪异的用法,git有点难学。这篇文章分享我学习过程中收藏的一些好图,并围绕这些图讲讲我对git的理解,希望对大家有所帮助。 GIT工作流程 了解git,首先要弄清楚对象在被git管理过程中...

2015-02-27 10:46:59

阅读数:234

评论数:0

flume-ng+Kafka+Storm+HDFS 实时系统搭建

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没...

2015-02-25 15:06:37

阅读数:458

评论数:0

Hive几种数据导入方式

数据导入方式,我总结为四种:  (1)、从本地文件系统中导入数据到Hive表;  (2)、从HDFS上导入数据到Hive表;  (3)、从别的表中查询出相应的数据并导入到Hive表中;  (4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。  我会对每一种数据的导入...

2015-02-12 10:46:26

阅读数:346

评论数:0

修改JVM启动参数

用java命令查看。 用java -option进行修改参数。 还有tomcat,eclipse启动时通过配置文件加载的。 详细如下: 安装Java开发软件时,默认安装包含两个文件夹,一个JDK(Java开发工具箱),一个JRE(Java运行环境,内含JVM),其中JDK内另含一个JR...

2014-09-19 15:45:36

阅读数:4688

评论数:0

JVM启动参数

前言 有时候程序会碰到java.lang.OutOfMemoryError,这个主要是JVM参数没有配好引起的。 OutOfMemoryError分两种:java.lang.OutOfMemoryError: Java heap space和java.lang.OutOfMemoryErr...

2014-09-19 15:22:35

阅读数:286

评论数:0

详解Java GC的工作原理+Minor GC、FullGC

JVM内存管理和JVM垃圾回收 JVM内存组成结构 JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示: 1)堆 所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又...

2014-09-19 14:33:45

阅读数:240

评论数:0

垃圾回收器算法

在说垃圾回收算法之前,先谈谈JVM怎样确定哪些对象是“垃圾”。 1.引用计数器算法: 引用计数器算法是给每个对象设置一个计数器,当有地方引用这个对象的时候,计数器+1 ,当引用失效的时候,计数器 -1 ,当计数器为 0 的时候, JVM 就认为对象不再被使用,是“垃圾”了。 引...

2014-09-19 13:50:49

阅读数:271

评论数:0

hadoop 性能调优 重要参数设置技巧

这里主要针对Mapreduce的性能调优。 这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~ 这里主要涉及的参数包括: HDFS: dfs.block.size Mapredure: io.sort.mb io.sort.spill.perce...

2014-09-10 11:42:25

阅读数:378

评论数:0

shell 脚本实--集群环境配置检测

1). 背景:   集群部署的时候, 需要一致的配置和环境设置. 对于虚拟机集群, 可以借助镜像拷贝, 复制和还原集群机器. 对与物理机集群而言, 则不一样, 如果机器一多, 多人去操作和配置, 对于成熟精干的团队还好, 对于不熟悉环境的小团队, 由于水平的参差不齐, 往往会导致不一致的环境. ...

2014-09-05 15:01:07

阅读数:632

评论数:0

Hadoop调优

Hadoop调优 mapred.tasktracker.map.tasks.maximum   官方解释:The maximum number of map tasks that will be run  simultaneously by a task tracker. ...

2014-08-21 16:29:52

阅读数:356

评论数:0

hadoop调优

这里主要针对Mapreduce的性能调优。 这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~ 这里主要涉及的参数包括: HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapr...

2014-08-21 16:09:12

阅读数:287

评论数:0

Hadoop读写文件时内部工作机制

读文件   读文件时内部工作机制参看下图:  客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),DistributedFileSystem通过RPC(Remote Procedure...

2014-08-21 15:38:53

阅读数:290

评论数:0

hadoop shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。    个人理解: map执行的结果会保存为本地的一个文件中: 只要map执行 完成,内存中的map数据就一定会保存到本地文件,保存这个文件有个过程 叫做spilll(溢写),...

2014-08-21 15:17:10

阅读数:1017

评论数:0

Hadoop 中的两表join

作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实...

2014-08-21 15:14:32

阅读数:325

评论数:0

海量数据面试题----分而治之/hash映射 + hash统计 + 堆/快速/归并排序

1、从set/map谈到hashtable/hash_map/hash_set    稍后本文第二部分中将多次提到hash_map/hash_set,下面稍稍介绍下这些容器,以作为基础准备。一般来说,STL容器分两种:     序列式容器(vector/list/deque/stack...

2014-08-20 17:00:59

阅读数:384

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭