- 博客(129)
- 资源 (16)
- 收藏
- 关注
原创 Elasticsearch 5.0 简介(medcl微信直播实录)
大家好,非常高兴能在这里给大家分享,感谢InfoQ提供的这个微信的平台,首先简单自我介绍一下,我叫曾勇,是Elastic的工程师。Elastic将在今年秋季的时候发布一个Elasticsearch V5.0的大版本,这次的微信分享将给大家介绍一下5.0版里面的一些新的特性和改进。5.0? 天啦噜,你是不是觉得版本跳的太快了。 好吧,先来说说背后的原因吧。 相信大家都听说ELK吧,是Elastic
2016-07-29 12:36:13 4127
原创 Elasticsearch custom analyzer with custom pattern(自定义Analyzer的分词pattern)
自己定义elastic search的analyzer的分词 pattern模式,可以对自己想要的存储的field进行自己定义的pattern进行tokenize 分词
2016-07-29 12:35:37 1662
原创 Linux索引节点(Inode:no space for device)用满导致的一次故障
在storm集群上出现的no space for device的错误,任何服务都无法开启,文件无法创建,发现是inode已满,然后找到解决方案并成功解决
2015-07-18 15:05:39 2761
原创 用Bash Script编写Hadoop MapReduce Streaming
MapReduce对外提供一个多语言编写MR的功能,就是Hadoop Streaming。我们可以通过自己喜欢的语言来编写Mapper和Reducer函数,运行MapReduce job。本文给出利用Bash script来编写mapreduce 的示例
2015-06-07 15:08:17 1652
原创 Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
本文是对Heron架构做了一下阅读笔记,讲解Heron在现有的Storm架构上做了哪些优化,这些优化能够解决Storm现在的哪些问题。
2015-06-05 17:46:38 2889
原创 Twitter 新一代流处理利器——Heron 论文笔记之Storm Limitations
Twitter Heron 论文笔记,简单介绍论文前半部分对storm局限性,从Storm worker、Nimbus以及资源分配这些来阐述目前Storm存在的问题。
2015-06-03 18:01:54 4407
原创 关于分布式程序 java的内存管理浅谈
关于分布式程序 java的内存管理浅谈,转述了一些之前看到的关于java memory的一些文章片段,列了几个在java memory管理上比较优秀的框架,大家可以参考一下。
2015-06-02 14:40:39 1863
原创 个性化推荐的十大挑战
本文整理了个性化推荐现金面临的十大挑战,具体内容没有给出,只给出了相关的论文列表,具体的详述内容,读者可以通过链接转到原作者blog进行阅读,在此感谢原作者的贡献。
2015-05-31 13:50:24 1613
原创 如何在运行时加载C++函数和类
有些时候你想在运行时加载一个lib或者function or class,这种事情经常发生在你开发一个plugin或者module时遇到。在C语言里,你可以轻松的利用dlopen, dlsym, dlclose来做到,但是在C++的世界里却没那么简单了。本文简单介绍如何在运行时加载c++ function和class的简单实现方法。
2015-05-31 01:59:25 5421 2
原创 win git error init_cheap-VirtualAlloc pointer is null, Win32 error 487
win git error init_cheap:VirtualAlloc pointer is null, Win32 error 487标签(空格分隔): git在idea利用git进行代码更新时遇到的问题,google了一下,早StackOverflow找到解决办法,在此share一下Error messageE:\vipshop\storm-sql>git pull origin joeywen
2015-05-29 19:10:01 5956
原创 Storm杂谈之Acker拾趣
Storm杂谈之Acker拾趣本文所讲内容并非storm的acker机制,而是讲讲开acker和不开acker的具体区别以及在storm源码中是怎样实现的
2015-05-28 10:12:29 2126 1
原创 LevelDb学习资料
LevelDb学习资料标签(空格分隔): db,k/v_db以下是leveldb的介绍资料初识LevelDb整体架构log文件SSTable文件MemTable写入与删除记录如何根据Key读取记录?CompactionlevelDb中的CachelevelDB tutorialLevelDB 网址:http://leveldb.org/ 基于levelDB做优化的RocksD
2015-05-27 17:50:53 1203
原创 对编程的一些建议
对编程的一些建议良好的编程风格代码风格很关键,代码风格之于项目就像衣服之于人一样,不能乱,不能邋遢,给人的第一印象就要好,这样别人也会多看一会儿,良好的代码编程风格也能避免一定的bug,比如很多人养成了断言的习惯,就会在某些地方打上断言,这样就会在工程初期fast-fail,有助于工程的最终结果。 强烈不建议copy别人的代码,特别是网上的一些人开发的小功能的代码。程序猿初期,老师或者leader
2015-05-27 13:52:34 1071
原创 玩转Bits和Bytes——Apache Flink的内存管理
(英文原文,慎入)Apache Flink在自己的框架中自己实现了内存管理和序列化/反序列化框架,很好的优化了数据程序在JVM上的内存使用。
2015-05-25 16:06:53 4803 4
原创 Apache MRQL——Apache又一开源孵化利器
MRQL is a query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, Spark, and Flink.
2015-05-25 14:47:55 1540
原创 Apache Flink简介
Apache Flink简介Apache Flink是一个可伸缩的开源批处理和流处理平台。其核心模块是一个数据流引擎,该引擎在分布式的流数据处理的基础上提供数据分发、交流、以及容错的功能。
2015-05-25 13:28:02 3832
原创 在streaming process中为什么需要类似sql查询语言
从现有的CEP(Complex Event Processing)框架,像强大得Esper,我们学到很多工作完全可以通过写sql来完成的,不需要编写任何的代码。所以对于流处理我认为也需要这样的类似sql查询语言。目前像Storm这样的流处理平台框架强迫使用者去实现像silding window,一些query pattern的操作。我认为并不是每一个案例开发者都喜欢重写这些东西。所以我们需要high
2015-05-25 12:38:26 1260
转载 大数据存取的选择:行存储还是列存储?
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围
2015-05-21 15:13:58 860
原创 storm运行异常之No output fields defined for component:stream XxxBolt:null疑案追踪
对于No output fields defined for component:stream XxxBolt:null异常代码调用堆栈的分析过程
2015-01-07 11:26:54 5772
原创 storm运行异常之No output fields defined for component:stream XxxBolt:null
storm运行异常之No output fields defined for component:stream XxxBolt:null的可能原因
2015-01-05 18:12:41 5708
原创 简单的HBase Client端实现
newbie刚接触HBase,遇到几个初学者常见的关于HBase问题,这里就问题就不多做介绍,主要还是编码优化问题,下面专门介绍以下几点,希望对于初学者有所帮助。
2015-01-02 14:09:28 1740
原创 storm杂谈之Why use netty as transport instead of zeromq
Why use netty as transport instead of zeromq in Storm
2014-12-18 21:47:54 3263 1
转载 Storm之trident序列化问题
在使用Storm的trident做流计算开发时,遇到一个诡异的问题:我继承IPartitionedTridentSpout或者IOpaquePartitionedTridentSpout接口做事务型实时计算的开发,类型T通常是用来每个批次序列化到ZK中的偏移量。我遇到的问题是:只要实时应用启动后不终止,每个批次发送的消息的偏移量都是接着上一个批次消息的偏移量继续向后移动的。但是只要应用终止
2014-12-13 01:41:53 1382 1
转载 序列化框架对比——Avro, Protocol Buffers and Thrift
So you have some data that you want to store in a file or send over the network. You may find yourself going through several phases of evolution:Using your programming language’s built-in serial
2014-12-04 14:44:10 1976
原创 DAG (directed acyclic graph) 作为大数据执行引擎的优点
TL;DR - Conceptually DAG model is a strict generalization of MapReduce model. DAG-based systems like Spark and Tez that are aware of the whole DAG of operations can do better global optimizations than
2014-12-04 14:29:04 7416
原创 Mapreduce 导出HBase table 数据到HDFS路径
由于HBase到Hive的Mapping无法把timestamp映射过去,所以zhinen
2014-11-16 14:24:16 2478
转载 RabbitMQ vs Kafka
原文地址:http://www.quora.com/RabbitMQ-vs-Kafka-which-one-for-durable-messaging-with-good-query-features
2014-11-12 13:09:32 2139
Developing Web Services with Apache CXF and Axis2, 3rd Edition
2011-06-30
程序设计方法学(浙江大学编辑出版)
2010-10-24
设计模式之禅(精简版)---秦小波著
2010-10-02
虚拟机的设计与实现——C_C++.zip
2010-09-16
精通J2EE--Eclipse、Struts、Hibernate及Spring整合应用案例
2010-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人