Nathan_way-CSDN博客

原创如何用Avro在内存中实现序列化和反序列化

最近项目中要用Avro对发送到Kafka中的数据进行序列化，用Avro进行序列化可以有两种方式: 一种是在内存中序列化，另一种是数据文件格式。改怎么选择呢？如果想把Avro集成到现有系统，用内存序列化比较好。其他情况，考虑用Avro的数据文件格式。Avro官网上对数据文件格式的序列化讲的很清楚，这次不在赘述，只是介绍一下在内存中如何序列化。我们以一个简单的Avro模式为例

2015-02-02 16:36:34 1805

原创 java开发中ConnectionPool 连接不同数据库的实现

在JAVA开发中，有时候会遇到要连接多个不同的数据库，可能一个是SQLSERVER，另一个是Vertica.那么我们怎么在一个ConnectionPool工具类中实现连接不同的数据库呢？下面是代码：import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLException;

2015-02-02 16:26:35 2337

原创 Avro通过schema自动生成java代码

今天早上一来，leader让我研究Avro和Kafka的集成。就是

2014-11-20 16:18:41 6267 1

转载 storm入门系列教程

storm入门教程1：storm概述http://www.aboutyun.com/thread-8048-1-2.html

2014-10-29 14:48:04 592

转载 Storm框架入门-很好的入门教材

转自：http://www.aboutyun.com/thread-9469-1-1.html阅读导读：1.Topology由什么构成？2.Topology的运行流程？方法调用流程3.storm.zookeeper.root指的是什么？它的值是什么？1 Topology构成和同样是计算框架的Mapreduce相比，Mapreduce集群上运行的是Job，而S

2014-10-29 14:43:13 734

转载高效搭建Storm完全分布式集群

问题导读：1.storm是否为主从式？2.storm需要哪些安装哪些软件？3.如何验证storm是否安装成功？

2014-10-29 11:27:12 1326

转载 mac10.9下eclipse的storm入门及开发环境搭建

转自：http://www.aboutyun.com/thread-8913-1-1.html问题导读：1、什么是STORM?2、搭建标题中的环境都需要哪些软件？3、如何制作eclipse的storm开发环境？

2014-10-29 11:22:58 779

转载 Storm高级原语（五） — State in Trident

转自：http://www.aboutyun.com/thread-8726-1-1.html问题导读1、一个opaque transactional spout有哪些特性？2、有哪几种不同类可以容错spout？3、OpaqueMap’s会用什么来调用multiPut方法？

2014-10-29 11:11:26 530

转载 Storm高级原语（四） — Trident API 综述

转自：http://www.aboutyun.com/thread-8725-1-2.html问题导读1、什么是Stream？2、两个流之间如何做连接操作？3、如何对Trident的五类进行操作？

2014-10-29 11:09:44 583

转载 Storm高级原语（三） — Trident topology

转自：http://www.aboutyun.com/thread-8709-1-1.html问题导读1、Trident是什么？2、如何使用Trident的API来完成大吞吐量的流式计算？3、如何使用stream作为输入并计算每个单词的个数？

2014-10-29 11:08:17 719

转载 Storm高级原语（二） — DRPC

转自：http://www.aboutyun.com/thread-8708-1-1.html搜索博客分享群组广播关注本站最新热门最新回复最新发表面试题项目区hadoop资源openstack 资源新手指导环境搭建休闲阅读目ha

2014-10-29 11:06:23 497

转载 Storm高级原语（一） — Transactional topology

转自：http://www.aboutyun.com/thread-8707-1-2.htmlhttp://www.aboutyun.com/thread-8707-1-2.html

2014-10-29 11:05:18 1043

转载 [翻译][Trident] Storm Trident 详细介绍

转自：http://www.aboutyun.com/thread-9217-1-1.html问题导读：1.Trident对storm提供了什么能力？2.Trident在如何最大程度的保证执行topogloy性能方面是非常智能的?3.storm如何保证每个消息都被处理一次？

2014-10-29 11:03:35 750

原创 Storm术语解释

Topologies 用于封装一个实时计算应用程序的逻辑，类似于Hadoop的MapReduce Job。里面包括了从

2014-10-29 09:49:03 928

转载用Hadoop进行分布式并行编程

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何针对一个具体的并行计算任务，基于 Hadoop 编写程序，如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上一

2014-10-09 11:21:35 562

原创 Hadoop1.x伪分布安装

下面介绍的是在Wind7上安装Vmware workstation 10 + lunix_CentOS5.4 安装完虚拟机后，有两个需求。需求一：主机和虚拟机能通信需求二：虚拟机能连上互联网我个人喜欢选择host-only 方式去和虚拟机链接，这样我换了地方，换了网络，所有的配置都不需要改变主机和虚拟机就可以通信。但是VMware 官方文档上说，如果选择host-on

2014-09-26 19:45:46 445

转载国内最全最详细的hadoop2.2.0集群的MapReduce的最简单配置

转自：http://www.cnblogs.com/meiyuanbao/p/3534376.html

2014-09-26 11:04:09 426

转载国内最全最详细的hadoop2.2.0集群的HA高可靠的最简单配置

转自：http://www.cnblogs.com/meiyuanbao/p/hadoop2.html

2014-09-26 11:04:05 457

转载国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程

转自：http://www.cnblogs.com/meiyuanbao/p/3545929.html前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比

2014-09-26 10:55:03 751

转载 Oracle10g体系结构概述

1. 几个重要的Oracle术语要学习Oracle的体系结构，先要搞明白几个重要的术语：Oracle服务器、Oracle实例、Oracle数据库。Oracle服务器：即Oracle server，由Oracle实例和Oracle数据库组成。Oracle实例：即Oracle instance，是在Oracle启动的第一个阶段根据参数文件，生成的一系列的后台进程和一块共享内存SGA

2014-08-12 12:44:26 332

转载星型模型和雪花型模型比较

一、概述在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，如图 1 。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，

2014-08-09 21:11:16 465

转载 informatical lookup的使用详解

Lookup在ETL中是一种常见的操作，比如产品键到代理键的转换，ID到name的转换等，都可以通过lookup来实现。Informatica中的lookup transformation组件除了能实现这种普通的转换，还可以用来更新缓慢变化维等，功能可谓强大。本文根据Informatcia8.1的联机文档，简单介绍一下informatica的lookup transformation。中英文名

2014-08-09 11:19:18 3910

转载 nformatica学习笔记

转自：http://blog.csdn.net/suncrafted/article/details/3739253

2014-08-07 20:31:43 915

转载 Informatica Update 机制详解

转自：http://blog.csdn.net/suncrafted/article/details/1745735Informatica Update 机制详解转自：http://informatica.iblog.com/post/3070/381606Informatica 作为ETL工具，Update是其很重要的一个特性。也正因为如此，我们会发现在Informa

2014-08-07 20:28:15 712

转载 9个学习Informatica非常好的资源

转自：http://blog.csdn.net/suncrafted/article/details/37393929个学习Informatica非常好的资源1) Data Integration - Informatica http://www.informatica.com2) Informatica Developer Network Home

2014-08-07 20:26:42 2991 2

大多我们运用的工具都会提到一个共同的问题------性能调优。什么是性能调优，每个人都有自己的一个定义，我比较喜欢的一个定义就是：性能调优就是尽力去消除系统中存在的性能瓶颈。这是一个循环往复的过程，首先找到性能瓶颈，然后采取各种方法尽力消除它，然后寻找下一个性能瓶颈，然后消除它，循环往复，直到性能达到预期目的为止。比较喜欢这个定义在于它告诉我们，性能调优没有一个最终的答案，每一次优化只要达到我们的

2014-08-07 20:25:38 1059

转载 informatica 面试题大全（持续更新）

转自：http://blog.csdn.net/suncrafted/article/details/3739472

2014-08-07 20:25:06 3595

转载如何用informatic实现表的增量抽取

本文所提到的数据加载策略为OLTP系统作为源系统，并进行 ETL数据加载到OLAP系统中所采用的一般数据加载策略。根据该方式的特定性，此时ETL数据加载一般存在以下四种方案： 1、时戳方式需要在OLTP系统中业务表中统一添加时间字段作为时戳（如表中已有相应的时间字段，可以不必添加），每当OLTP系统中更新修改业务数据时，同时修改时戳字段值。当作ETL加载时，通过系统时间

2014-08-07 20:22:29 3009 1

转载新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁

摘要：大数据价值被提了很多年，但对于大多数企业或组织来说，使用大数据的能力远远低于收集数据的能力，Oracle推出Big Data SQL软件，意味着管理员在处理非关系型数据库或Hadoop中的信息时，不用再学习其他查询语言。【编者按】一直以来，大数据的使用远远不及大数据收集能力，就起原因主要是目前企业的数据主要分散在不同的系统或组织，大数据战略的杀手锏就是能够更深度的，更丰富的挖掘所有数据系

2014-08-07 20:15:29 408

原创 ETL 面试常见问题

1. source Qualifile和Joiner的区别Source Qualifier可实现N个同构的数据源关联，Joiner组件可实现2个异构的数据源关联。前者只能关联同构数据，是在源数据库中实现关联；后者也可关联同构数据，但主要是用来关联异构数据源，关联操作是在Informatica缓存中实现的。 N个异构数据源，需要N-1个Joiner组件实现关联.异构数据源：在数据仓

2014-08-07 15:56:21 24490 1

原创英文自我介绍

It’s really a great honor tohave this opportunity for an interview. Now I will introduce myself briefly.I worked for Satyam aftergraduation. My Role was BI Support Engineer. It was a wonderful exp

2014-08-07 15:52:32 422

转载 Oracle 游标使用全解

这个文档几乎包含了oracle游标使用的方方面面，全部通过了测试

2014-08-07 15:51:31 334

转载一家之主怎样理财四步走规划好家里每分钱

什么是家庭顶梁柱？家庭顶梁柱就是指家庭的支柱，肩上不仅承担着家庭的责任，还有社会的责任，一般为父母。面对现今高速上涨的物价以及高昂的房价，家庭顶梁柱肩上压力更大，如何来缓解呢，理财师认为，家庭顶梁柱可从家庭理财做起，“踢”好以下四步： “踢”好第一步，做好预算家庭顶梁柱需对自己家庭中每月必须支出的方面进行预算，主要包括家庭日常的衣服、食品、住房、交通费、通讯费、娱乐费、医疗费

2014-05-07 13:16:36 796

原创浅谈我对“活在当下”的理解

我不想去讲那些对“活在当下”理解为“今宵有酒今宵醉”的人做任何

2014-04-20 22:32:07 945

原创 Hadoop的思想起源--Google

首先简单介绍一下Google, Google有很多产品，Google搜索引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google学术，Google翻译，Google+，下一步Google what？？这些为我们的生活带来了巨大的变革，可以说在这个世纪，如果你不会用google，你的生活质量也不会怎么高。先来看看Google的低成本之道。

2014-03-25 20:02:09 3655

转载 Hadoop-MapReduce下的PageRank 矩阵分块算法

李远方，邓世昆，闻玉彪，韩月阳(云南大学信息学院，云南昆明650091)摘要：PageRank是Web结构挖掘的经典算法，已在Google搜索引擎中取得了巨大成功。但其迭代次数多，时空消耗大，执行速度和收敛速度都还较慢。文中详细讨论了Hadoop—MapReduce的执行流程及其内部实现机制后，提出了一种并行MapReduce实现矩阵分块的PageRank算法，其实质是减少MapR

2014-03-24 13:39:06 2302

转载搜索引擎-倒排索引基础知识

1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。图3-1 单

2014-03-24 12:42:22 643

转载倒排索引-搜索引擎的基石

1.概述在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引起，他它并不能满足其特殊要求： 1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。 2）数据操作简单：搜索引擎使用的数据操作简单 ,一般而言 ,只需要增、

2014-03-24 12:11:03 692

空空如也

空空如也