分布式计算
文章平均质量分 73
joeywen
努力做正确的事
展开
-
PageRank算法概述
读书报告,转载请标明出处http://blog.csdn.net/wzhg0508/article/details/9068849原创 2013-06-09 23:25:01 · 1288 阅读 · 0 评论 -
HBase的运算有多快
简单介绍一下HBase,重点在分析HBase的一次get操作的时间复杂度原创 2015-01-03 14:50:31 · 2551 阅读 · 2 评论 -
Storm杂谈之Topology的启动过程(一)
简单介绍了storm topology启动时的大概过程原创 2014-12-11 01:12:09 · 4912 阅读 · 0 评论 -
Storm杂谈之Topology的启动过程(二)
topology启动粗糙的简介原创 2014-12-12 00:44:13 · 3852 阅读 · 0 评论 -
Storm问题——组件带参数构造函数未被调用,抛出NullpointerException
storm开发中遇到的问题原创 2014-12-12 01:06:17 · 1643 阅读 · 0 评论 -
storm杂谈之Why use netty as transport instead of zeromq
Why use netty as transport instead of zeromq in Storm原创 2014-12-18 21:47:54 · 3251 阅读 · 1 评论 -
Storm之trident序列化问题
在使用Storm的trident做流计算开发时,遇到一个诡异的问题:我继承IPartitionedTridentSpout或者IOpaquePartitionedTridentSpout接口做事务型实时计算的开发,类型T通常是用来每个批次序列化到ZK中的偏移量。我遇到的问题是:只要实时应用启动后不终止,每个批次发送的消息的偏移量都是接着上一个批次消息的偏移量继续向后移动的。但是只要应用终止转载 2014-12-13 01:41:53 · 1372 阅读 · 1 评论 -
简单的HBase Client端实现
newbie刚接触HBase,遇到几个初学者常见的关于HBase问题,这里就问题就不多做介绍,主要还是编码优化问题,下面专门介绍以下几点,希望对于初学者有所帮助。原创 2015-01-02 14:09:28 · 1728 阅读 · 0 评论 -
HBase shell 命令入门
HBase Shell经常用到的命令,入门必知必会呀原创 2015-05-14 15:42:12 · 6787 阅读 · 0 评论 -
大数据存取的选择:行存储还是列存储?
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围转载 2015-05-21 15:13:58 · 853 阅读 · 0 评论 -
在streaming process中为什么需要类似sql查询语言
从现有的CEP(Complex Event Processing)框架,像强大得Esper,我们学到很多工作完全可以通过写sql来完成的,不需要编写任何的代码。所以对于流处理我认为也需要这样的类似sql查询语言。目前像Storm这样的流处理平台框架强迫使用者去实现像silding window,一些query pattern的操作。我认为并不是每一个案例开发者都喜欢重写这些东西。所以我们需要high原创 2015-05-25 12:38:26 · 1249 阅读 · 0 评论 -
序列化框架对比——Avro, Protocol Buffers and Thrift
So you have some data that you want to store in a file or send over the network. You may find yourself going through several phases of evolution:Using your programming language’s built-in serial转载 2014-12-04 14:44:10 · 1964 阅读 · 0 评论 -
DAG (directed acyclic graph) 作为大数据执行引擎的优点
TL;DR - Conceptually DAG model is a strict generalization of MapReduce model. DAG-based systems like Spark and Tez that are aware of the whole DAG of operations can do better global optimizations than原创 2014-12-04 14:29:04 · 7395 阅读 · 0 评论 -
Lock-free 多核数据结构设计
lock-free思想背景基本的多核数据结构设计是非常简单的:只需要在并发处理同一数据结构时,加上locks就可以了。这种思想在并发数不是很多的情况下工作的很好。因为这时的资源争用开销并不是很大。随着多核机器逐渐的变大变多,例如成百上千的核,这种加lock机制对此应用的不是很好:如果你只有几个锁,锁的争夺成为巨大的;如果你有许多细粒度的锁,锁的开销开始增加。所以对于大型多核机器来说翻译 2013-06-09 00:28:39 · 1269 阅读 · 0 评论 -
Spark K-Means 算法实践之Java版
还没时间整理,先把代码贴上来。package spark.examples;import spark.api.java.*;import spark.api.java.function.*;import java.util.HashMap;import java.util.Iterator;import java.util.List;import java.util.A原创 2013-09-20 13:24:12 · 5125 阅读 · 4 评论 -
简单的MongoDB客户端(Java)
package com.joey.mongo;import java.util.Map;/** * @author joey 2013-09-02 * @e-mail joey.wen@outlook.com */public abstract class MongoDBClient { public abstract void insert(Map map); p原创 2013-10-17 17:32:20 · 1096 阅读 · 0 评论 -
访问Hadoop的HDFS文件系统的Java实现
Hadoop版本 Hadoop-0.19.1-core.jar1、创建HDFS对象Configuration config = new Configuration();config.set("fs.default.name","hdfs://127.0.0.1:9000/");FileSystem dfs = FileSystem.get(config);2、新建目录原创 2013-12-15 17:15:10 · 2709 阅读 · 1 评论 -
Hive建表实例——定义serdeproperties属性
创建table时,直接定义serdeproperties属性,create table wzhg(c0 string,c1 string,c2 string)row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'with serdeproperties ('input.regex' = 'bduid原创 2013-06-09 23:36:01 · 26512 阅读 · 1 评论 -
大数据处理方法总结(转载)
转自:http://www.cnblogs.com/jishu/archive/2011/04/27/2030921.html大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大转载 2013-12-21 22:32:35 · 1442 阅读 · 0 评论 -
[Storm 0.8.2]: java.io.FileNotFoundException: File '../stormconf.ser' does not exist
https://issues.apache.org/jira/browse/STORM-130--------- viceyang: We encountered the same problem, our version is 0.8.3, i read supervisor code, it seems not a bug, the key reason is "synchroni原创 2014-03-14 14:22:29 · 2226 阅读 · 0 评论 -
NoSQL解决方案比较(MongoDB vs Redis, Tokyo Cabinet, and Berkeley DB)
NoSQL解决方案比较NoSQL Solution: Evaluation and Comparison: MongoDB vs Redis, Tokyo Cabinet, and Berkeley DB你也许认为这是NoSQL (Not Only SQL)广告宣传的另一个博客。是,这的确是。但是如果这个时候你仍就为寻找一个可行的NoSQL解决方案而苦恼,读完这转载 2014-10-17 12:14:45 · 1706 阅读 · 0 评论 -
Spark 与Storm 异同
http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.htmlStorm vs. Spark Streaming: Side-by-side comparisonOverviewBoth Storm and Spark Streaming are open-原创 2014-08-12 10:05:33 · 2849 阅读 · 0 评论 -
MapReduce实例——ChainMapper的使用
按照API上的说明:/** * The ChainMapper class allows to use multiple Mapper classes within a single * Map task. * * The Mapper classes are invoked in a chained (or piped) fashion, the output of * th原创 2014-01-11 19:02:03 · 2291 阅读 · 0 评论 -
storm运行异常之No output fields defined for component:stream XxxBolt:null疑案追踪
对于No output fields defined for component:stream XxxBolt:null异常代码调用堆栈的分析过程原创 2015-01-07 11:26:54 · 5757 阅读 · 0 评论 -
Apache Flink简介
Apache Flink简介Apache Flink是一个可伸缩的开源批处理和流处理平台。其核心模块是一个数据流引擎,该引擎在分布式的流数据处理的基础上提供数据分发、交流、以及容错的功能。原创 2015-05-25 13:28:02 · 3821 阅读 · 0 评论