自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(173)
  • 收藏
  • 关注

原创 mac svn版本

http://xiayong.blog.51cto.com/6292420/1186124截至目前SVN最新版本已经到l.7.9 Release,而Xcode以及Mac系统自带的SVN版本还是1.6。实在不喜欢SVN1.6版本在每个目录下都生成一个.svn文件夹,所以动手自己来升级SVN。 1、下载最新版的Mac版SVN客户端到http://www.wandisco.com下载...

2014-11-14 15:21:36 347

原创 lucene索引结构比较好得博客

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html

2014-11-03 21:16:01 168

原创 lucene再64位系统上使用MMapDirectory

引子http://www.cnblogs.com/huangfox/p/3616298.htmllucene再使用directory上面又很多小九九,这些小九九主要是再directory得实现上,分为SimpleFsdirectory,NIOFSDirectory,MMapDirectory,RAMDirectory,FileSwitchDirectory。再3.3版本之前,使用得都是RAM...

2014-11-03 20:18:09 330

原创 mvn发布单个文件

由于平时我们开发都是一个大项目中包含几个子项目,需要deploy得只有部分项目。如下命令,用于记录安装到本地mvn install:install-file -Dfile=hse-client/target/hse-client-1.1.5-SNAPSHOT.jar -DgroupId=com.taobao.trip -DartifactId=hse-client -Dversion=1...

2014-10-31 15:38:44 183

原创 使用 ObjectOutputStream 可能引起的内存泄漏

    场景,线上堆栈10G,平时内存使用达到8个G而且慢慢增长,经常出现full gc,经过堆栈信息排查出来是由于ObjectOutputStream造成得内存泄漏。项目中使用ObjectOutputStream进行写文件,使用writeObject()方法,然而,该对象写得object可能存在内存泄漏,是由于ObjectOutputStream写对象时,依然存在这对该对象得引用,这是j...

2014-10-30 17:14:29 705

原创 CMS GC时出现promotion failed和concurrent mode failure

对于采用CMS进行旧生代GC的程序而言,尤其要注意GC日志中是否有promotion failed和concurrent mode failure两种状况,当这两种状况出现时可能会触发Full GC。promotion failed是在进行Minor GC时,survivor space放不下、对象只能放入旧生代,而此时旧生代也放不下造成的;concurrent mode failure是在...

2014-10-29 23:44:40 151

原创 jboss发布war

http://www.blogjava.net/hello-yun/archive/2011/03/14/346240.html

2014-10-23 13:09:51 123

原创 netty学习blog

http://www.infoq.com/cn/articles/netty-server-create

2014-10-09 16:04:25 97

原创 java多线程

http://www.cnblogs.com/skywang12345/p/java_threads_category.html

2014-10-08 13:37:32 129

原创 volatile和重排序得一些小疑问

http://yeziwang.iteye.com/blog/1042492  好吧,这里我只想说说volatile在JMM中的语义。   当我们在使用volatile的时候,实际上它表达了下面那么些意思。    1. 可见性。      这个是大多数人都知道的一个特质, JAVA的线程有自己的工作内存区,与主存区不同,当我们对变量使用了volatile后,那么不管对这个...

2014-09-24 15:38:31 160

原创 内存映射文件

  简介:        内存映射文件与虚拟内存有些类似,通过内存映射文件可以保留一个地址空间的区域,同时将物理存储器提交给此区域,只是内存文件映射的物理存储器来自一个已经存在于磁盘上的文件,而非系统的页文件,而且在对该文件进行操作之前必须首先对文件进行映射,就如同将整个文件从磁盘加载到内存。由此可以看出,使用内存映射文件处理存储于磁盘上的文件时,将不必再对文件执行I/O操作,这意味着在对...

2014-09-19 11:09:36 97

原创 rocketmq

原创文章,转载请注明出处:http://jameswxx.iteye.com/blog/2091966我想说,真tm蛋疼,2.0和3.0架构变化挺大的,nameserver有必要吗?zookeeper不是挺好的吗?  一 nameserver相对来说,nameserver的稳定性非常高。原因有二:1 nameserver互相独立,彼此没有通信关系,单台nameserve...

2014-09-04 15:47:40 98

原创 CAP

    CAP原理    C(consistency)-一致性    A(Availability)-可用性    P(patition tolerance)-分区容忍性  

2014-08-26 19:36:20 88

原创 zookeeper zab协议

http://www.cnblogs.com/aigongsi/archive/2012/09/22/2698055.htmlhttp://www.cnblogs.com/aigongsi/archive/2012/09/21/2696773.htmlhttp://blog.csdn.net/c289054531/article/details/15337575http://my....

2014-08-20 19:45:28 123

原创 心跳机制 heartbeat

       心跳机制可以分为集中式和分散式,简单说集中式就是A通过心跳告诉B自己还活着,C通过B来获得或者的A,这里面的A,B,C可以是一个集群,可以认为B是个服务发现的功能。这种方式广泛应用于hadoop,NameServer来管理哪些DataNode时活的,客户端存储数据要从nameserver中获取存储的datanode的位置。这种方式有弊端就是B会存在单点故障,当然也有方式解决,譬如...

2014-08-05 23:13:57 728 1

原创 netty udp蛋疼的事情

2012-11-29蛋痛的 netty UDP receiveBufferSize netty 的NioDatagramWorker中分配了接收包缓存的最大大小,默认是 768Bytes,蛋痛的是第一次接收 768B后第二次缓存被扩展到 768B*2 buffer 中前768B是第一个包的前面部分数据,后768B是第二个包的前部分数据。比较奇怪的是:http://d...

2014-07-30 19:20:23 719

原创 一个性能瓶颈分析的过程

引自http://blog.csdn.net/axman/article/details/5591301前段时间公司打造了自己的WEB开发框架新版,性能比以前的两个版有很大提高。在性能基准测试时,某个测试的业务场景为18000个TPS左右。但是后来增加了session序列化模块后,一下子下降低到6000个TPS左右,就是因为这个模块性能一下子降低三倍。 jvisualvm监视...

2014-07-29 16:19:38 207

原创 zip gzip

http://www.differencebetween.net/technology/difference-between-zip-and-gzip/ZIP vs GZIPZIP and GZIP are two very popular methods of compressing files, in order to save space, or to reduce the am...

2014-07-29 15:09:25 131

原创 RAID write back write through

RAID write back指的是raid控制器能够将写入的数据写入自己的缓存中,并把它们安排到后续再执行,这样做的好处就是不需要等实际写入磁盘再返回,因此写入更快。对于数据库而言,这一点更为重要,对重做日志的写入,sync_binlog为1的情况下二进制日志写入,脏页的刷新等,都可以有很大的提升。但是这样有个弊端就是系统发生意外,数据还在缓存中没有写入磁盘。大多数硬件RAID提供了电池...

2014-07-09 13:44:48 408

原创 druid PreparedStatementCache设置

druid的连接池配置中有PreparedStatementCache的配置,该信息解决了sql语句可以被预编译,并且保存在PreparedStatement这个对象中,而这个对象的存储就在PreparedStatementCache,对于oracle可以绕过数据库编译,有很大的提升,但是对于mysql,没有那么明显。这个值的设置不是越大越好,PSCache会占用jvm,占用量=连接数*PS...

2014-07-08 14:34:58 1938

原创 mvn expected: CRLF

Checkstyle error is not severe. You can disable checkstyle plugin, put <skip>true</skip> in pom.xml file:<project> ... <build> ... <plugins> ......

2014-07-03 14:36:13 187

原创 innodb 插入缓冲

插入缓冲是InnoDB存储引擎关键特性中最令人激动的。不过,这个名字可能会让人认为插入缓冲是缓冲池中的一个部分。其实不然,InnoDB缓冲池中有Insert Buffer信息固然不错,但是Insert Buffer和数据页一样,也是物理页的一个组成部分。我们知道,主键是行唯一的标识符,在应用程序中行记录的插入顺序是按照主键递增的顺序进行插入的。因此,插入聚集索引一般是顺序的,不需要磁盘的随机读取。...

2014-07-01 16:07:49 116

原创 分布式事务blog

http://coolshell.cn/articles/10910.html

2014-05-08 00:21:03 61

原创 netty学习blog

http://blog.csdn.net/u013252773/article/details/21046697

2014-05-05 09:38:07 74

原创 netty 零拷贝

http://my.oschina.net/plucury/blog/192577 mmap()系统调用使得进程之间通过映射同一个普通文件实现共享内存 sendfile()是作用于数据拷贝在两个文件描述符之间的操作函数.这个拷贝操作是内核中操作的,所以称为"零拷贝".Linux "零拷贝" sendfile函数中文说明及实际操作分析http://blog.csdn.ne...

2014-04-25 09:24:23 190

原创 批量转码工具

find cozy.base -type d -exec mkdir -p cozy/{} \;find cozy.base -exec sh -c "iconv -f GB18030 -t UTF8 {} > utf/{}" \;

2014-04-18 11:52:09 253

原创 zookeeper好的文章

http://shift-alt-ctrl.iteye.com/blog/1846865http://www.csdn.net/article/2013-12-27/2817944-zookeeperhttp://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html

2014-04-04 17:44:30 163

原创 spring mvc 好的文档

http://jinnianshilongnian.iteye.com/

2014-03-30 13:32:24 82

原创 hbase例子

https://github.com/mozilla/socorrohttps://github.com/mozilla-metrics/socorro-toolboxhttps://github.com/Huawei-Hadoop/hindexhttps://github.com/sonalgoyal/crux/tree/aggregation/testData/BseStoc...

2014-01-17 11:44:03 92

原创 HBase性能调优

引自http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:Regio...

2014-01-16 21:17:47 71

原创 Hive调优实战

Hive优化总结 ---by 食人花   优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如...

2014-01-16 21:09:48 102

原创 map和reduce 个数的设定 (Hive优化)经典

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为7...

2014-01-16 21:03:10 105

原创 HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据...

2014-01-13 12:36:13 92

原创 Hive 数据倾斜总结

 转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到 了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大...

2014-01-13 12:15:36 71

原创 hive merge file

当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。 为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并 当然,在我们向一个表写数据时,也需要注意输出文件大小 1. Map输入合并小文件 对应参数: set mapred.max.split...

2014-01-11 10:12:58 457

原创 Hive MapJoin 优化

1、Hive本地MR  如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感,查询的数据不能太大,否则本地内存是吃不消的。So the query processor will launch this task in a child jvm, which has the same heap size as the Ma...

2014-01-11 10:05:49 81

原创 深入学习《Programing Hive》:数据压缩

Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。          在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或更多,同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节...

2014-01-08 17:22:32 172

原创 Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 需要注意的是传统数据库对表数据验证是 schema on write(写时模式)...

2014-01-08 17:21:09 150

原创 MongoDB优化的方法

引自http://www.2cto.com/database/201203/123993.html部署优化(Linux系统): 1.关闭MongoDB数据存储所在文件的atime(mount -o remount,noatime,nodiratime) 2.设置file descriptor limit和user process limit为4k+  3.选择正确的...

2013-11-27 22:52:15 95

原创 mongodb的监控与性能优化

引自http://my.oschina.net/baowenke/blog/97756 mongodb可以通过profile来监控数据,进行优化。查看当前是否开启profile功能用命令db.getProfilingLevel()  返回level等级,值为0|1|2,分别代表意思:0代表关闭,1代表记录慢命令,2代表全部开始profile功能为db.setProfili...

2013-11-27 22:41:04 64

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除