2015年05月_cache007

转载 Storm高级原语（四） — Trident API 综述

“Stream”是Trident中的核心数据模型，它被当做一系列的batch来处理。在Storm集群的节点之间，一个stream被划分成很多partition（分区），对流的操作（operation）是在每个partition上并行进行的。注：①“Stream”是Trident中的核心数据模型：有些地方也说是TridentTuple，没有个标准的说法。②一个stream被划

2015-05-29 15:57:34 424

转载 Storm高级原语（四） — Trident API 综述

“Stream”是Trident中的核心数据模型，它被当做一系列的batch来处理。在Storm集群的节点之间，一个stream被划分成很多partition（分区），对流的操作（operation）是在每个partition上并行进行的。注：①“Stream”是Trident中的核心数据模型：有些地方也说是TridentTuple，没有个标准的说法。②一个stream被划

2015-05-29 15:56:31 636

转载 Storm高级原语（三） — Trident topology

问题导读1、Trident是什么？2、如何使用Trident的API来完成大吞吐量的流式计算？3、如何使用stream作为输入并计算每个单词的个数？Trident是在storm基础上，一个以实时计算为目标的高度抽象。它在提供处理大吞吐量数据能力（每秒百万次消息）的同时，也提供了低延时分布式查询和有状态流式处理的能力。如果你对Pig和Cascading这种高级

2015-05-29 15:47:06 716

转载 Storm高级原语（二） — DRPC

本文翻译自Apache Storm主页上的Distributed-RPC 介绍一文，同时参考徐明明博客。Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型（CPU intensive）的计算任务。DRPC的storm topology以函数的参数流作为输入，而把这些函数调用的返回值作为topology的输出流。DRPC其实不能算是storm本身的一个特

2015-05-29 15:44:18 408

转载 Storm高级原语（一） — Transactional topology

本文翻译自Apache storm主页上的Transactional-topologies 介绍一文，同时参考徐明明博客。Transactional topology是一个0.9版本中被弃用的原语，取而代之的是trident框架。（关于trident请参考：《Storm高级原语（三） — Trident topology》）Storm通过保证每个tuple至少被处理一次来提供可靠

2015-05-29 15:24:01 437

原创 javan之ManagementFactory

/** * Returns the platform MXBean implementing * the given {@code mxbeanInterface} which is specified * to have one single instance in the Java virtual machine. * This method m

2015-05-27 15:13:10 1274

转载 Storm处理流程, 基本参数配置

Storm处理流程, 基本参数配置配置选项名称配置选项作用topology.max.task.parallelism每个Topology运行时最大的executor数目topology.workers每个Topology运行时的worker的默认数目，若在代码中设置，则此选项值被覆盖

2015-05-26 16:53:33 2327

转载 storm安装笔记以及提交拓扑任务

把Storm依赖组件的版本贴出来供各位参考：java(1.7.0_45)python(2.6.6)zookeeper (zookeeper-3.4.5)zeromq(zeromq-2.1.7)jzmq(github trunk)storm(0.8.1) java和Python的安装过程不赘述了，说下其他组件的安装过程安装zoo

2015-05-21 14:07:43 2160

转载 Maven导出Project依赖的jar包

Maven导出Project依赖的jar包从Maven仓库中导出jar包：mvn dependency:copy-dependencies 会导出到Project的targed/dependency 下面可以在Project创建lib文件夹，输入以下命令：mvn dependency:copy-dependencie

2015-05-21 10:15:56 353

转载 Spark概述

Spark的几个特点Spark是基于内存的计算，比基于磁盘的Hadoop Map Reduce快了百倍的数量级Spark MapReduce操作更丰富更灵活Spark通过一个技术栈，提供完整的针对大数据计算的生态系统Spark速度快 1. Hadoop MapReduce磁盘级计算模型 Hadoop MapReduce计算模型是磁盘级的计算，下图是H

2015-05-20 16:59:28 720

转载 hbase参数配置优化

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，Reigon

2015-05-18 11:42:51 428

转载 Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服

2015-05-18 11:27:47 515

转载 Hbase的架构和实现原理

一、架构思路 Hbase是基于Hadoop的项目，所以一般情况下我们使用的直接就是HDFS文件系统，这里我们不深谈HDFS如何构造其分布式的文件系统，只需要知道虽然Hbase中有多个RegionServer的概念，并不意味着数据是持久化在RegionServer上的，事实上，RegionServer是调度者，管理Regions，但是数据是持久化在HDFS上的。明确这一点，在后面的讨论

2015-05-18 11:25:12 436

转载 guava字符串处理：分割，连接，填充

连接器[Joiner]用分隔符把字符串序列连接起来也可能会遇上不必要的麻烦。如果字符串序列中含有null，那连接操作会更难。Fluent风格的Joiner让连接字符串更简单。1Joiner joiner = Joiner.on("; ").skipNulls();2return joiner.j

2015-05-15 16:24:23 1951

转载 Guava学习笔记：Google Guava 类库简介

Guava 是一个 Google 的基于java1.6的类库集合的扩展项目，包括 collections, caching, primitives support, concurrency libraries, common annotations, string processing, I/O, 等等. 这些高质量的 API 可以使你的JAVa代码更加优雅，更加简洁，让你工作更加轻松愉悦。下面我

2015-05-15 16:11:00 449

转载 guava部分使用API

1.预先判断Preconditions通常我们检查参数，是用如下方法 public void setRating(Double rating){ if(rating == null){ throw new NullPointerException();

2015-05-15 16:08:49 1030

转载 Guava学习笔记：Guava cache

缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资

2015-05-15 16:01:41 425

转载（guava）的API快速熟悉使用

1，大纲让我们来熟悉瓜娃，并体验下它的一些API,分成如下几个部分：IntroductionGuava Collection APIGuava Basic UtilitiesIO APICache API2，为神马选择瓜娃？瓜娃是java API蛋糕上的冰激凌（精华）高效设计良好的API.被google的开发者设计，实现和使用。遵循高效的java这本书的好的语法实践

2015-05-15 15:39:55 1259

转载 Welcome to Apache Commons

Welcome to Apache CommonsApache Commons is an Apache project focused on all aspects of reusable Java components.The Apache Commons project is composed of three parts:The Commons Proper - A rep

2015-05-14 22:49:53 676

转载 Guice

Guice是Google开发的一个轻量级，基于Java5（主要运用泛型与注释特性）的依赖注入框架(IOC)。Guice非常小而且快。Guice是类型安全的，它能够对构造函数，属性，方法（包含任意个参数的任意方法，而不仅仅是setter方法）进行注入。外文名Guice特性自定义scopes，传递依赖等开发公司

2015-05-14 22:48:55 452

转载 Google Guava官方教程（中文版）

引言Guava工程包含了若干被Google的 Java项目广泛依赖的核心库，例如：集合 [collections] 、缓存 [caching] 、原生类型支持 [primitives support] 、并发库 [concurrency libraries] 、通用注解 [common annotations] 、字符串处理 [string processing] 、I/O 等等。所有

2015-05-14 22:48:42 761

转载 java 堆内存的转换和分析

内存结构1、堆(Heap)内存1) 运行时数据区域，所有类实例和数组的内存均从此处分配。Java虚拟机启动时创建。2) 组成组成详解Young Generation即图中的Eden + From Space + To SpaceEden存放新生的对象Survivor Space有两个，存

2015-05-13 17:56:12 809

转载 Java之内存分析和String对象

Java中内存分析：　　栈(Stack) ：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中）。　　堆(heap)：存放所有new出来的对象。　　常量池(constant pool)：在堆中分配出来的一块存储区域，存放储显式的String常量和基本类型常量(float、int等)。另外，可以存储

2015-05-13 17:51:11 335

转载 JAVA虚拟机体系结构

JAVA虚拟机的生命周期　　一个运行时的Java虚拟机实例的天职是：负责运行一个java程序。当启动一个Java程序时，一个虚拟机实例也就诞生了。当该程序关闭退出，这个虚拟机实例也就随之消亡。如果同一台计算机上同时运行三个Java程序，将得到三个Java虚拟机实例。每个Java程序都运行于它自己的Java虚拟机实例中。　　Java虚拟机实例通过调用某个初始类的main()方法来运行

2015-05-13 17:48:04 365

转载 java内存分配和String类型的深度解析

一、引题在java语言的所有数据类型中，String类型是比较特殊的一种类型，同时也是面试的时候经常被问到的一个知识点，本文结合java内存分配深度分析关于String的许多令人迷惑的问题。下面是本文将要涉及到的一些问题，如果读者对这些问题都了如指掌，则可忽略此文。 1、java内存具体指哪块内存？这块内存区域为什么要进行划分？是如何划分的？划分之后每块区域的作用是什

2015-05-13 17:35:52 382

转载 Java内存与垃圾回收调优

Java（JVM）内存模型正如你从上面的图片看到的，JVM内存被分成多个独立的部分。广泛地说，JVM堆内存被分为两部分——年轻代（Young Generation）和老年代（Old Generation）。年轻代年轻代是所有新对象产生的地方。当年轻代内存空间被用完时，就会触发垃圾回收。这个垃圾回收叫做Minor GC。年轻代被分为3个部分——Enden区和两个Sur

2015-05-13 16:54:29 795

原创 spring annotation & bean

// define interfacepublic interface IHelloWorld { void sayHello();}// implement interface@Repositorypublic class HelloWorldImpl implements IHelloWorld { public void sayHel

2015-05-13 16:46:42 369

转载理解storm 进程内消息流（很好的一篇文章

When you are optimizing the performance of your Storm topologies it helps to understand how Storm’s internal message queues are configured and put to use. In this short article I will explain and illu

2015-05-12 19:41:21 588

原创外部消息的接收和处理

2015-05-12 19:40:12 374

转载 Spark分布式计算和RDD模型研究

1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景：Ø 迭代式算法：迭代式机器

2015-05-11 19:46:39 1136

转载 Spark集群基于Zookeeper的HA搭建部署

1.环境介绍（1）操作系统RHEL6.2-64（2）两个节点：spark1(192.168.232.147),spark2(192.168.232.152)（3）两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper（1）下载Zookeeper：http://apache.claz.org/zookeeper ... keeper-3.4.5.tar.gz

2015-05-11 19:31:52 697

转载 windows中使用Git工具连接GitHub(配置篇)

一、准备工具1.下载Git Extensions。地址 http://code.google.com/p/gitextensions/downloads/list 请下载最新版本。2.下载Tortoisegit。地址 http://code.google.com/p/tortoisegit/downloads/list 请下载最新版本(注意：这个区分32bit和64bit的版本)。

2015-05-11 17:21:46 335

转载 Spark Core源码分析: RDD基础

RDDRDD初始参数：上下文和一组依赖abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable以下需要仔细理清：A li

2015-05-07 18:04:22 607

转载 Spark 学习入门教程

一、环境准备测试环境使用的cdh提供的quickstart vmhadoop版本：2.5.0-cdh5.2.0spark版本：1.1.0二、Hello Spark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar 移动到/usr/lib/spa

2015-05-07 17:37:36 749

转载 Spark基础知识学习分享

一、Spark基础知识梳理1.Spark是什么？ Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，节省了磁盘IO耗时，号称性能比Hadoo

2015-05-07 17:37:13 469

cache007的专栏

转载 Storm高级原语（四） — Trident API 综述

转载 Storm高级原语（四） — Trident API 综述

转载 Storm高级原语（三） — Trident topology

转载 Storm高级原语（二） — DRPC

转载 Storm高级原语（一） — Transactional topology

原创 javan之ManagementFactory

转载 Storm处理流程, 基本参数配置

转载 storm安装笔记以及提交拓扑任务

转载 Maven导出Project依赖的jar包

转载 Spark概述

转载 hbase参数配置优化

转载 Hbase原理、基本概念、基本架构

转载 Hbase的架构和实现原理

转载 guava字符串处理：分割，连接，填充

转载 Guava学习笔记：Google Guava 类库简介

转载 guava部分使用API

转载 Guava学习笔记：Guava cache

转载（guava）的API快速熟悉使用

转载 Welcome to Apache Commons

转载 Guice

转载 Google Guava官方教程（中文版）

转载 java 堆内存的转换和分析

转载 Java之内存分析和String对象

转载 JAVA虚拟机体系结构

转载 java内存分配和String类型的深度解析

转载 Java内存与垃圾回收调优

原创 spring annotation & bean

转载理解storm 进程内消息流（很好的一篇文章

原创外部消息的接收和处理

转载 Spark分布式计算和RDD模型研究

转载 Spark集群基于Zookeeper的HA搭建部署

转载 windows中使用Git工具连接GitHub(配置篇)

转载 Spark Core源码分析: RDD基础

转载 Spark 学习入门教程

转载 Spark基础知识学习分享

基于flink的平台化构建以及运维优化

空空如也