自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 Heron(二)—-系统架构

Heron的总体架构如图1所示,用户开发的代码通过aurora scheduler的命令行进行提交,aurora schedule是一个跑在mesos上的框架。 图1topology会以一个aurora任务的方式运行,topology包含持有一些container。如图2所示。第一个container运行的进程叫topology Master。其余的contai

2015-06-19 13:30:08 1150

原创 Heron(一)—-storm的一些短板

twitter在使用storm过程中发现了一些storm的弊端,开发Herons相对storm需要提升的几个特性:1)更好的扩展性, 2)更容易调试 3)更高的性能  4)更好管理–可以和其他系统复用资源

2015-06-18 18:24:01 3349

转载 Eclipse上GIT插件EGIT使用手册之八_解决推送冲突

多人协作开发的情况下,往服务器推送更新时难免出现冲突,所以推送之前需要解决服务器端的最新版本和本地仓库的冲突。Pull操作就是把服务器端的更新拉拢到本地仓库进行合并,解决好合并冲突后,就可以顺利push到服务器分支了。假设现在Mairo兄弟在用GIT协作开发NewSuperMairoBro游戏,目前服务器端的mushroom.java文件的内容如下:MairoBro克隆出代

2013-09-08 18:44:18 1123

翻译 Trident API概述

Storm Trident的核心数据模型是一批一批被处理的“流”,“流”在集群的分区在集群的节点上,对“流”的操作也是并行的在每个分区上进行。 Trident有五种对“流”的操作:1.      不需要网络传输的本地批次运算2.      需要网络传输的“重分布”操作,不改变数据的内容3.      聚合操作,网络传输是该操作的一部分4.      “流”分组(grouby

2013-01-19 16:09:29 4812 5

转载 Ganglia安装

转自:http://share.blog.51cto.com/278008/577554一、所需要软件二、安装过程    1、Ganglia运行平台的安装    2、Ganglia依赖库的安装    3、RRDTool的安装    4、Ganglia的安装 (包括使用yum方式安装)三、简单配置四、启动与访问五、被监控节点上安装Ganglia (包括

2012-12-26 16:45:57 6045 1

原创 zk四字命令

zk命令描述conf输出相关服务配置详细信息cons列出所有连接到服务端的客户端的连接/会话的详细信息。包括“接受/发送”包数据,回话ID,网络延迟,最后执行的操作等信息dump列出未经处理的回话和临时节点envi输出关于服务环境的详细信息(区别于conf命令)reqs列出未经处理的请求ruok测试

2012-12-18 09:24:31 3129

转载 JVM 各种OOM问题与解决方法

转自:http://zhaohe162.blog.163.com/blog/static/38216797201110232341953/1、OOM for Heap=>例如:java.lang.OutOfMemoryError: Java heap space【分析】 此OOM是由于JVM中heap的最大值不满足需要,将设置heap的最大值调高即可,参数样例为:-Xmx2G【解决

2012-12-11 16:17:08 1509

转载 Storm zk目录结构

转自:http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper上面写状态信息来分配任务,supervisor,task通过从zookeeper中读状态来领取任务,同时supe

2012-12-06 10:08:04 1595

转载 linux忘记root密码处理方法

转自:http://www.linuxso.com/linuxrumen/598.html一、在系统进入单用户状态,直接用passwd root去更改;  1、 lilo  在出现 lilo: 提示时键入 linux single  画面显示 lilo: linux single  回车可直接进入linux命令行  #vi /etc/shadow  将第一行,即以roo

2012-08-30 13:41:12 737

原创 storm自定义grouping

storm有很多种grouping方案storm wiki上面对各种grouping的说明如下:Stream groupingsPart of defining a topology is specifying for each bolt which streams it should receive as input. A stream grouping defines ho

2012-08-29 16:44:49 7927 1

转载 java LRUCache

// Copyright 2007 Christian d'Heureuse, Inventec Informatik AG, Zurich, Switzerland// www.source-code.biz, www.inventec.ch/chdh//// This module is multi-licensed and may be used under the terms

2012-08-27 16:15:43 1438

原创 bloom filter简单实现

再流计算中计算UV是个相当麻烦的事情,特别数据量很大的时候,中间存储就大的吓人。最近项目中遇到分类目计算UV,UV量大概在7000W,有20w多个类目。如果使用简单的存储中间结果再去重,如果使用内存内存打不下,使用Hbase的话HBASE的吞吐又不够。于是准备使用bloom近似计算UV。写了个bloom filter的demo程序,由于uid都为数字在计算hash值时碰撞率比较搞,于是

2012-08-23 18:42:07 1680

原创 java bitmap实现

public class BitArray { private int[] bits = null; private long length; private final int[] bitValue = { 0x80000000, 0x40000000,

2012-08-23 18:31:50 6557 1

转载 twitter storm 配置项

转自:http://blog.csdn.net/larrylgq/article/details/7230871配置项配置说明storm.zookeeper.serversZooKeeper服务器列表storm.zookeeper.portZooKeeper连接端口storm.local.dirstorm使用的本地文件系统目录

2012-07-16 11:09:51 1624

转载 centOS安装ZeroMQ

centOS安装ZeroMQ所需组件及工具:yum install gccyum install gcc-c++yum install makeyum install uuid-develyum install libuuid-devel JZMQ安装过程中错误及所需组件:错误:autogen.sh: error: could not

2012-05-14 12:21:19 2291

转载 使用hdfsAPI读写hdfs

转自:http://blog.csdn.net/zhangzhaokun/article/details/55974331、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。

2012-05-03 14:50:23 4079

转载 如何设计插件式结构的程序,兼谈Python语言的动态性

转自:http://besteam.im/blogs/article/81/为了扩充软件的功能,通常我们会把软件设计成插件式结构。Python这样的动态语言天生就支持插件式编程。与C++相比,Python已经定义好模块的接口,想要载入一个插件,一个__import__()就能很轻松地搞定。不需要特定的底层知识。而且与C++等静态语言相比,Python的插件式结构更显灵活。因为插件载入后,可

2012-04-25 12:18:40 4912

原创 Hive.g文件的编译

对hive进行二次开发的过程中可能需要修改hive.g文件,需要使用antrl重新编译生成HiveLexer.java和HiveLexer.java文件,对编译过程做一个简单的记录编译需要文件:antlr-2.7.7.jar  http://www.java2s.com/Code/Jar/a/Downloadantlr277jar.htm 下载antlr-3.0.1.j

2012-04-17 10:39:57 3660

转载 Hadoop中TeraSort算法分析

本文转自:http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/1、概述1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要

2012-03-21 09:50:36 866

转载 Hive-0.5中UDF和UDAF简述

本文转自:http://blog.csdn.net/dajuezhao/article/details/5753001一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integ

2012-03-20 13:58:32 910

转载 hadoop错误INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1

hadoop安装完成后,必须要用haddop namenode format格式化后,才能使用,如果重启机器在启动hadoop后,用hadoop fs -ls命令老是报 10/09/25 18:35:29 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).

2012-03-07 10:37:32 27391 3

原创 postgresql分区表笔记

最近在做oracle数据库向pg迁移的事情,非分区表使用ora2pg很容易迁移,遇到分区表的时候,发现由于oracle中的分区表分区表都采用的“P_日期”作为分区名,ora2pg导出的sql中pg子表名成为“p_日期”,导致大量的表名重复出错,只有在ora2pg到处的文件上进行手工修改,这里整理一下pg分区表的知识。###################################

2012-02-06 18:15:08 1979

原创 linux Pljava源码安装笔记

由于最近要使用postgresql处理一些java的数据类型,主备使用pljiava。准备:1. Postgresql预先安装好(我使用的版本是9.1)2. 准备pljiava安装文件,可以到http://pgfoundry.org/frs/?group_id=1000038下载,我使用的是pljava-src-1.4.3.tar.gz3. 准备java1.4或1.5  (java

2012-01-11 16:51:51 1653

原创 linux下postgresql数据库debug环境搭建

1.准备   下载postgresql安装文件,从http://www.postgresql.org/download/下载需要的版本安装readline(非必须)。如果需要使用zlib,ssl等则需要先安装zlib,ssl库,不需要使用则可以不安装。2. 创建用户groupadd postgresuseradd -g postgres postgres3.安装

2012-01-09 21:27:36 2950

转载 postgresql 维护与优化

原文:http://ruimemo.wordpress.com/2010/03/31/postgresql-performance-and-maintenance-%EF%BC%88postgres-%E4%BC%98%E5%8C%96%E4%B8%8E%E7%BB%B4%E6%8A%A4/每次看postgresql的设定,好像每次都忘记。过一段时间又要看。今天终于决定,开始blog吧

2011-12-20 16:58:15 1457

转载 postgresql/greenplum查询依赖于表上的视图

本文转自:http://blog.csdn.net/scutshuxue/article/details/6791213#quote 在postgresql、greenplum中,我们经常需要重建某张表,为了方便回滚,我们一般将原表rename掉,然后重建原表。       这样子,就会有一个问题:依赖于原表的视图还是依赖于rename的表,没有依赖于新表。这是因为视图定义的时

2011-12-19 18:12:29 1723

转载 greenplum(postgresql)之数据字典

本文转自:http://blog.csdn.net/scutshuxue/article/details/6371803 greenplum是基于postgresql开发的分布式数据库,里面大部分的数据字典是一样的。我们在维护gp的时候对gp的数据字典比较熟悉,特此分享给大家。在这里不会详细介绍每个字典的内容,只会介绍常见的应用以及一些已经封装好了的函数。具体的介绍大家可以去看postgr

2011-12-19 18:10:45 4593

转载 [PostgreSQL] PG91 的 Replication + Hot Stanby 配

转自:http://godbms.blogspot.com/2011/11/pg91-replication-hot-stanby.html1. 初始化$ initdb -D path/to/pg911-prim --encoding=UTF-8 --no-locale --pwprompt --auth=md52. 免密码设置(hostname:port:da

2011-12-14 13:52:35 1977

转载 postgres数据库坏块修复

转自:http://www.redgres.com/web/node/17  由于磁盘坏道或者是内存问题等硬件上的原因,有时候会导致数据库的数据文件的一些数据块的损坏,使得某些表不能正常访问,本文谈一下PostgreSQL数据块损坏时候,表数据的恢复方法   PostgreSQL采用一个表存放在一个或者多个物理文件,所以数据块的损坏一般只会影响到一个表,使得该表的数据不能查询或者是备份,下

2011-11-10 10:03:24 4733

转载 HBase存储架构

转自:http://blog.csdn.net/trend_cdc_spn/article/details/5755620 HBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问题向你抱怨,但是如果你想学习哪些高级的配置选项并了解它们的意思,你可能就需要来了解一下这个存储问题了。“怎样才能把HBase调整到最适合我需求的状态?”你可能对于这样一系列类

2011-11-08 10:40:20 845

转载 LevelDB内部实现

作者:Jeff Dean, Sanjay Ghemawat原文:leveldb.googlecode.com译者:phylips@bmy译文:duanple.blog.163.comFilesLevelDB的实现本质上类似于Bigtable中的tablet(参见Bigtable论文5.3节)。但是,与论文中的具体的文件组织方式稍有不同,解释如下:每个

2011-11-07 14:57:25 968

转载 protobuf和thrift对比

本文转自:http://liuchangit.com/development/346.html数据类型protobufthriftprotobufthriftprotobufthriftprotobufthriftdoubledoublefloat

2011-11-07 09:52:11 19851 1

原创 postgresql与mysql使用dblink联通

posrgresql默认的dblink只能联通posrgresql的不同数据库,不能进行异构数据库的联通,本文将介绍使用mysql_fdw联通posrgresql和mysql。mysql_fdw官网为:http://pgxn.org/dist/mysql_fdw/1.0.0/

2011-10-10 16:13:50 4440

原创 postgresql建立外表

POSTGRESQL9.1 版本支持了外表,今天进行一个简单的测试:1. 导入外表插件:pgdb1=# create extension file_fdw;CREATE EXTENSIONcreate extension参见手册:http://www.postgre

2011-09-21 18:02:20 3954

转载 Linux文件系统Ext2,Ext3,Ext4性能大比拼

转自:http://www.weste.net/2009/2-2/19320553262.htmlLinux kernel 自 2.6.28 开始正式支持新的文件系统 Ext4。 Ext4 是 Ext3 的改进版,修改了 Ext3 中部分重要的数据结构,而不仅仅像 Ext3

2011-09-19 18:05:20 1217

转载 软件raid配置

转自:http://opkeep.com/system/linux/linux_raid.html安装程序实现软件RAID代替硬件RAID的方法,今天再进一步谈谈手动创建软RAID和日常维护的方法。mdadm使用的也是md驱动,由于其拥有多种模式,而且单一工具,不依赖

2011-09-19 17:17:50 1706

原创 堆表和索引组织表区别

堆表(heap table)数据插入时时存储位置是随机的,主要是数据库内部块的空闲情况决定,获取数据是按照命中率计算,全表扫表时不见得先插入的数据先查到。索引表(iot)数据存储是把表按照索引的方式存储的,数据是有序的,数据的位置是预先定好的,与插入的顺序没有关系。索引表

2011-09-05 16:52:34 14887 1

原创 mysql ERROR2002(HY000):can't connect to local MYSQL server through socket '/var/run/mysql/mysql.soc'

今天准备将hive的元数据库改为mysql,于是安装了mysql,遇到写问题,顺便记录下。安装完成后执行:#mysql  ERROR2002(HY000):can't connect to local MYSQL server through socket

2011-09-02 18:18:11 2444 1

转载 hive 参数设定

本文转自:http://www.oschina.net/question/12_9024开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践 中经常遇到的一个问题是,为什么设定的参数没有起作用?

2011-09-02 15:09:02 1800

原创 hive源码结构分析(编译器)

本文转自:http://samuschen.iteye.com/blog/860809Hive 是将 SQL 语句转换成 hadoop 的 MapReduce 程序,通常在客户端执行 hive 命令,然后输入 SQL 语句后, hive 将 SQL 语句生成多个 MR 的 j

2011-09-01 17:22:13 1975

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除