自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

iTer的专栏

攀爬于分布式计算和检索的大树上

  • 博客(129)
  • 资源 (16)
  • 收藏
  • 关注

原创 Elasticsearch 5.0 简介(medcl微信直播实录)

大家好,非常高兴能在这里给大家分享,感谢InfoQ提供的这个微信的平台,首先简单自我介绍一下,我叫曾勇,是Elastic的工程师。Elastic将在今年秋季的时候发布一个Elasticsearch V5.0的大版本,这次的微信分享将给大家介绍一下5.0版里面的一些新的特性和改进。5.0? 天啦噜,你是不是觉得版本跳的太快了。 好吧,先来说说背后的原因吧。 相信大家都听说ELK吧,是Elastic

2016-07-29 12:36:13 4127

原创 Elasticsearch custom analyzer with custom pattern(自定义Analyzer的分词pattern)

自己定义elastic search的analyzer的分词 pattern模式,可以对自己想要的存储的field进行自己定义的pattern进行tokenize 分词

2016-07-29 12:35:37 1662

转载 Streaming Real-time Data Into HBase

Hbase 写优化

2016-06-03 11:35:24 912

原创 Logstash实践之MySQL Slowlog解析

Logstash实践之MySQL Slowlog解析

2016-01-31 23:36:24 3087

原创 Logstash 实践之Redis日志解析

Logstash 实践之Redis日志解析

2016-01-31 23:30:23 4829

原创 Logstash 实践之Spark Driver日志解析

Logstash 实践之Spark Driver日志解析

2016-01-31 23:27:26 2703

原创 logstash 学习小记

简单的介绍了logstash,给出一些简单实用的examples

2015-08-02 14:12:33 11619

原创 Linux索引节点(Inode:no space for device)用满导致的一次故障

在storm集群上出现的no space for device的错误,任何服务都无法开启,文件无法创建,发现是inode已满,然后找到解决方案并成功解决

2015-07-18 15:05:39 2761

原创 Mesos资料收集(持续更新)

Mesos资料收集,持续更新中

2015-06-09 01:51:34 1465

原创 用Bash Script编写Hadoop MapReduce Streaming

MapReduce对外提供一个多语言编写MR的功能,就是Hadoop Streaming。我们可以通过自己喜欢的语言来编写Mapper和Reducer函数,运行MapReduce job。本文给出利用Bash script来编写mapreduce 的示例

2015-06-07 15:08:17 1652

原创 Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

本文是对Heron架构做了一下阅读笔记,讲解Heron在现有的Storm架构上做了哪些优化,这些优化能够解决Storm现在的哪些问题。

2015-06-05 17:46:38 2889

原创 Twitter 新一代流处理利器——Heron 论文笔记之Storm Limitations

Twitter Heron 论文笔记,简单介绍论文前半部分对storm局限性,从Storm worker、Nimbus以及资源分配这些来阐述目前Storm存在的问题。

2015-06-03 18:01:54 4407

原创 关于分布式程序 java的内存管理浅谈

关于分布式程序 java的内存管理浅谈,转述了一些之前看到的关于java memory的一些文章片段,列了几个在java memory管理上比较优秀的框架,大家可以参考一下。

2015-06-02 14:40:39 1863

原创 个性化推荐的十大挑战

本文整理了个性化推荐现金面临的十大挑战,具体内容没有给出,只给出了相关的论文列表,具体的详述内容,读者可以通过链接转到原作者blog进行阅读,在此感谢原作者的贡献。

2015-05-31 13:50:24 1613

原创 如何在运行时加载C++函数和类

有些时候你想在运行时加载一个lib或者function or class,这种事情经常发生在你开发一个plugin或者module时遇到。在C语言里,你可以轻松的利用dlopen, dlsym, dlclose来做到,但是在C++的世界里却没那么简单了。本文简单介绍如何在运行时加载c++ function和class的简单实现方法。

2015-05-31 01:59:25 5421 2

原创 win git error init_cheap-VirtualAlloc pointer is null, Win32 error 487

win git error init_cheap:VirtualAlloc pointer is null, Win32 error 487标签(空格分隔): git在idea利用git进行代码更新时遇到的问题,google了一下,早StackOverflow找到解决办法,在此share一下Error messageE:\vipshop\storm-sql>git pull origin joeywen

2015-05-29 19:10:01 5956

原创 Storm杂谈之Acker拾趣

Storm杂谈之Acker拾趣本文所讲内容并非storm的acker机制,而是讲讲开acker和不开acker的具体区别以及在storm源码中是怎样实现的

2015-05-28 10:12:29 2126 1

原创 LevelDb学习资料

LevelDb学习资料标签(空格分隔): db,k/v_db以下是leveldb的介绍资料初识LevelDb整体架构log文件SSTable文件MemTable写入与删除记录如何根据Key读取记录?CompactionlevelDb中的CachelevelDB tutorialLevelDB 网址:http://leveldb.org/ 基于levelDB做优化的RocksD

2015-05-27 17:50:53 1203

原创 对编程的一些建议

对编程的一些建议良好的编程风格代码风格很关键,代码风格之于项目就像衣服之于人一样,不能乱,不能邋遢,给人的第一印象就要好,这样别人也会多看一会儿,良好的代码编程风格也能避免一定的bug,比如很多人养成了断言的习惯,就会在某些地方打上断言,这样就会在工程初期fast-fail,有助于工程的最终结果。 强烈不建议copy别人的代码,特别是网上的一些人开发的小功能的代码。程序猿初期,老师或者leader

2015-05-27 13:52:34 1071

原创 Storm的一些重要的bug issues

Storm几个重要的优化isusse,含有升级讨论的详细细节,供开发者和使用者参考。

2015-05-25 16:11:01 1360

原创 玩转Bits和Bytes——Apache Flink的内存管理

(英文原文,慎入)Apache Flink在自己的框架中自己实现了内存管理和序列化/反序列化框架,很好的优化了数据程序在JVM上的内存使用。

2015-05-25 16:06:53 4803 4

原创 Apache MRQL——Apache又一开源孵化利器

MRQL is a query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, Spark, and Flink.

2015-05-25 14:47:55 1540

原创 Apache Flink简介

Apache Flink简介Apache Flink是一个可伸缩的开源批处理和流处理平台。其核心模块是一个数据流引擎,该引擎在分布式的流数据处理的基础上提供数据分发、交流、以及容错的功能。

2015-05-25 13:28:02 3832

原创 在streaming process中为什么需要类似sql查询语言

从现有的CEP(Complex Event Processing)框架,像强大得Esper,我们学到很多工作完全可以通过写sql来完成的,不需要编写任何的代码。所以对于流处理我认为也需要这样的类似sql查询语言。目前像Storm这样的流处理平台框架强迫使用者去实现像silding window,一些query pattern的操作。我认为并不是每一个案例开发者都喜欢重写这些东西。所以我们需要high

2015-05-25 12:38:26 1260

转载 大数据存取的选择:行存储还是列存储?

目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围

2015-05-21 15:13:58 860

原创 HBase shell 命令入门

HBase Shell经常用到的命令,入门必知必会呀

2015-05-14 15:42:12 6796

原创 storm运行异常之No output fields defined for component:stream XxxBolt:null疑案追踪

对于No output fields defined for component:stream XxxBolt:null异常代码调用堆栈的分析过程

2015-01-07 11:26:54 5772

原创 storm运行异常之No output fields defined for component:stream XxxBolt:null

storm运行异常之No output fields defined for component:stream XxxBolt:null的可能原因

2015-01-05 18:12:41 5708

原创 HBase的运算有多快

简单介绍一下HBase,重点在分析HBase的一次get操作的时间复杂度

2015-01-03 14:50:31 2560 2

原创 简单的HBase Client端实现

newbie刚接触HBase,遇到几个初学者常见的关于HBase问题,这里就问题就不多做介绍,主要还是编码优化问题,下面专门介绍以下几点,希望对于初学者有所帮助。

2015-01-02 14:09:28 1740

原创 Storm杂谈之调度算法

简单介绍了storm现有的调度算法,以及一些其他公司或研究组织对其的改进

2014-12-27 23:47:08 3032

原创 storm杂谈之Why use netty as transport instead of zeromq

Why use netty as transport instead of zeromq in Storm

2014-12-18 21:47:54 3263 1

转载 Storm之trident序列化问题

在使用Storm的trident做流计算开发时,遇到一个诡异的问题:我继承IPartitionedTridentSpout或者IOpaquePartitionedTridentSpout接口做事务型实时计算的开发,类型T通常是用来每个批次序列化到ZK中的偏移量。我遇到的问题是:只要实时应用启动后不终止,每个批次发送的消息的偏移量都是接着上一个批次消息的偏移量继续向后移动的。但是只要应用终止

2014-12-13 01:41:53 1382 1

原创 Storm问题——组件带参数构造函数未被调用,抛出NullpointerException

storm开发中遇到的问题

2014-12-12 01:06:17 1653

原创 Storm杂谈之Topology的启动过程(二)

topology启动粗糙的简介

2014-12-12 00:44:13 3867

原创 Storm杂谈之Topology的启动过程(一)

简单介绍了storm topology启动时的大概过程

2014-12-11 01:12:09 4921

转载 序列化框架对比——Avro, Protocol Buffers and Thrift

So you have some data that you want to store in a file or send over the network. You may find yourself going through several phases of evolution:Using your programming language’s built-in serial

2014-12-04 14:44:10 1976

原创 DAG (directed acyclic graph) 作为大数据执行引擎的优点

TL;DR - Conceptually DAG model is a strict generalization of MapReduce model. DAG-based systems like Spark and Tez that are aware of the whole DAG of operations can do better global optimizations than

2014-12-04 14:29:04 7416

原创 Mapreduce 导出HBase table 数据到HDFS路径

由于HBase到Hive的Mapping无法把timestamp映射过去,所以zhinen

2014-11-16 14:24:16 2478

转载 RabbitMQ vs Kafka

原文地址:http://www.quora.com/RabbitMQ-vs-Kafka-which-one-for-durable-messaging-with-good-query-features

2014-11-12 13:09:32 2139

ELasticsaerch 简介

简单介绍elasticsearch

2016-06-28

zeromq for Python 资料

zeromq的入门文档,Python版的,因为java安装太麻烦了,Python的只需要安装msi(windows)就OK了

2014-11-23

利用MapReduce进行密集型数据处理

英文文档,目前尚未有中文版,详细介绍了mapreduce优化及其一些在文本处理上的一些算法操作,对mr编写者很有帮助

2014-10-27

Getting.Started.with.Storm 中文翻译

Getting.Started.with.Storm 中文翻译版,入门必读教程

2014-10-27

lucene 源码分析

本文档详细讲解了搜索的原理以及Lucene框架源码,一个其具体实现。对于初学者很有帮助

2013-03-15

Pro. Android Game

android game 入门很好的教程

2011-08-11

Developing Web Services with Apache CXF and Axis2, 3rd Edition

详细讲述了cxf开发web service非常适合初学者,我就是从对webservice + cxf一点不懂的情况下看这本书的,非常经典的一本书。

2011-06-30

Spring技术内幕:深入解析Spring架构与设计原理

spring初学者必看之书,详细讲述了Ioc容器等一些Spring技术的详细应用。

2011-06-30

程序设计方法学(浙江大学编辑出版)

方法论是一套用以降解编程问题复杂性的过程与启发。自从面向对象编程面世以来,已经系统的提出了许多中OOP方法论。本书将让你体会在采用某种方法论时你将能够达到的目标。

2010-10-24

设计模式之禅(精简版)---秦小波著

我希望这本书的阅读者具备最基本的代码编写能力,您是一个初级的coder,可以从中领会到怎么设计 一段优秀的代码;您是一个高级程序员,可以从中全面了解到设计模式以及Java 的边角技术的使用;您是 一个顶级的系统分析师,可以从中获得共鸣,寻找到项目公共问题的解决办法,呀,是不是把牛吹大了?!

2010-10-02

Hadoop 权威指南

Hadoop经典教程,对于初学者有很大的帮助。

2010-10-02

虚拟机的设计与实现——C_C++.zip

1、描述了如何通过一系列简单的步骤实现一个具有实用价值的运行时系统。 2、对以下技术进行了深入的讨论:内存管理技术、TCP/IP连网技术、虚拟机与宿主机代码的借口技术。

2010-09-16

精通J2EE--Eclipse、Struts、Hibernate及Spring整合应用案例

精通J2EE--Eclipse、Struts、Hibernate及Spring整合应用案例,高清pdf文档。-Proficient in J2EE- Eclipse, Struts, Hibernate and Spring integrate applications cases, high-definition pdf documents.

2010-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除