whsq1987-CSDN博客

原创 mac svn版本

http://xiayong.blog.51cto.com/6292420/1186124截至目前SVN最新版本已经到l.7.9 Release，而Xcode以及Mac系统自带的SVN版本还是1.6。实在不喜欢SVN1.6版本在每个目录下都生成一个.svn文件夹，所以动手自己来升级SVN。 1、下载最新版的Mac版SVN客户端到http://www.wandisco.com下载...

2014-11-14 15:21:36 394

原创 lucene索引结构比较好得博客

http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html

2014-11-03 21:16:01 223

原创 lucene再64位系统上使用MMapDirectory

引子http://www.cnblogs.com/huangfox/p/3616298.htmllucene再使用directory上面又很多小九九，这些小九九主要是再directory得实现上，分为SimpleFsdirectory，NIOFSDirectory，MMapDirectory，RAMDirectory,FileSwitchDirectory。再3.3版本之前，使用得都是RAM...

2014-11-03 20:18:09 406

原创 mvn发布单个文件

由于平时我们开发都是一个大项目中包含几个子项目，需要deploy得只有部分项目。如下命令，用于记录安装到本地mvn install:install-file -Dfile=hse-client/target/hse-client-1.1.5-SNAPSHOT.jar -DgroupId=com.taobao.trip -DartifactId=hse-client -Dversion=1...

2014-10-31 15:38:44 221

原创使用 ObjectOutputStream 可能引起的内存泄漏

场景，线上堆栈10G，平时内存使用达到8个G而且慢慢增长，经常出现full gc，经过堆栈信息排查出来是由于ObjectOutputStream造成得内存泄漏。项目中使用ObjectOutputStream进行写文件，使用writeObject()方法，然而，该对象写得object可能存在内存泄漏，是由于ObjectOutputStream写对象时，依然存在这对该对象得引用，这是j...

2014-10-30 17:14:29 749

原创 CMS GC时出现promotion failed和concurrent mode failure

对于采用CMS进行旧生代GC的程序而言，尤其要注意GC日志中是否有promotion failed和concurrent mode failure两种状况，当这两种状况出现时可能会触发Full GC。promotion failed是在进行Minor GC时，survivor space放不下、对象只能放入旧生代，而此时旧生代也放不下造成的；concurrent mode failure是在...

2014-10-29 23:44:40 182

原创 jboss发布war

http://www.blogjava.net/hello-yun/archive/2011/03/14/346240.html

2014-10-23 13:09:51 144

原创 netty学习blog

http://www.infoq.com/cn/articles/netty-server-create

2014-10-09 16:04:25 126

原创 java多线程

http://www.cnblogs.com/skywang12345/p/java_threads_category.html

2014-10-08 13:37:32 157

原创 volatile和重排序得一些小疑问

http://yeziwang.iteye.com/blog/1042492 好吧，这里我只想说说volatile在JMM中的语义。当我们在使用volatile的时候，实际上它表达了下面那么些意思。 1. 可见性。这个是大多数人都知道的一个特质， JAVA的线程有自己的工作内存区，与主存区不同，当我们对变量使用了volatile后，那么不管对这个...

2014-09-24 15:38:31 194

原创内存映射文件

简介：内存映射文件与虚拟内存有些类似，通过内存映射文件可以保留一个地址空间的区域，同时将物理存储器提交给此区域，只是内存文件映射的物理存储器来自一个已经存在于磁盘上的文件，而非系统的页文件，而且在对该文件进行操作之前必须首先对文件进行映射，就如同将整个文件从磁盘加载到内存。由此可以看出，使用内存映射文件处理存储于磁盘上的文件时，将不必再对文件执行I/O操作，这意味着在对...

2014-09-19 11:09:36 128

原创 rocketmq

原创文章，转载请注明出处：http://jameswxx.iteye.com/blog/2091966我想说，真tm蛋疼，2.0和3.0架构变化挺大的，nameserver有必要吗？zookeeper不是挺好的吗？一 nameserver相对来说，nameserver的稳定性非常高。原因有二：1 nameserver互相独立，彼此没有通信关系，单台nameserve...

2014-09-04 15:47:40 123

原创 CAP

CAP原理 C（consistency）－一致性 A（Availability）－可用性 P（patition tolerance）－分区容忍性

2014-08-26 19:36:20 110

原创 zookeeper zab协议

http://www.cnblogs.com/aigongsi/archive/2012/09/22/2698055.htmlhttp://www.cnblogs.com/aigongsi/archive/2012/09/21/2696773.htmlhttp://blog.csdn.net/c289054531/article/details/15337575http://my....

2014-08-20 19:45:28 160

原创心跳机制 heartbeat

心跳机制可以分为集中式和分散式，简单说集中式就是A通过心跳告诉B自己还活着，C通过B来获得或者的A，这里面的A，B，C可以是一个集群，可以认为B是个服务发现的功能。这种方式广泛应用于hadoop，NameServer来管理哪些DataNode时活的，客户端存储数据要从nameserver中获取存储的datanode的位置。这种方式有弊端就是B会存在单点故障，当然也有方式解决，譬如...

2014-08-05 23:13:57 803 1

原创 netty udp蛋疼的事情

2012-11-29蛋痛的 netty UDP receiveBufferSize netty 的NioDatagramWorker中分配了接收包缓存的最大大小，默认是 768Bytes，蛋痛的是第一次接收 768B后第二次缓存被扩展到 768B*2 buffer 中前768B是第一个包的前面部分数据，后768B是第二个包的前部分数据。比较奇怪的是：http://d...

2014-07-30 19:20:23 744

原创一个性能瓶颈分析的过程

引自http://blog.csdn.net/axman/article/details/5591301前段时间公司打造了自己的WEB开发框架新版，性能比以前的两个版有很大提高。在性能基准测试时，某个测试的业务场景为18000个TPS左右。但是后来增加了session序列化模块后，一下子下降低到6000个TPS左右，就是因为这个模块性能一下子降低三倍。 jvisualvm监视...

2014-07-29 16:19:38 235

原创 zip gzip

http://www.differencebetween.net/technology/difference-between-zip-and-gzip/ZIP vs GZIPZIP and GZIP are two very popular methods of compressing files, in order to save space, or to reduce the am...

2014-07-29 15:09:25 152

原创 RAID write back write through

RAID write back指的是raid控制器能够将写入的数据写入自己的缓存中，并把它们安排到后续再执行，这样做的好处就是不需要等实际写入磁盘再返回，因此写入更快。对于数据库而言，这一点更为重要，对重做日志的写入，sync_binlog为1的情况下二进制日志写入，脏页的刷新等，都可以有很大的提升。但是这样有个弊端就是系统发生意外，数据还在缓存中没有写入磁盘。大多数硬件RAID提供了电池...

2014-07-09 13:44:48 475

原创 druid PreparedStatementCache设置

druid的连接池配置中有PreparedStatementCache的配置，该信息解决了sql语句可以被预编译，并且保存在PreparedStatement这个对象中，而这个对象的存储就在PreparedStatementCache，对于oracle可以绕过数据库编译，有很大的提升，但是对于mysql，没有那么明显。这个值的设置不是越大越好，PSCache会占用jvm，占用量＝连接数＊PS...

2014-07-08 14:34:58 2039

原创 mvn expected: CRLF

Checkstyle error is not severe. You can disable checkstyle plugin, put <skip>true</skip> in pom.xml file:<project> ... <build> ... <plugins> ......

2014-07-03 14:36:13 220

原创 innodb 插入缓冲

插入缓冲是InnoDB存储引擎关键特性中最令人激动的。不过，这个名字可能会让人认为插入缓冲是缓冲池中的一个部分。其实不然，InnoDB缓冲池中有Insert Buffer信息固然不错，但是Insert Buffer和数据页一样，也是物理页的一个组成部分。我们知道，主键是行唯一的标识符，在应用程序中行记录的插入顺序是按照主键递增的顺序进行插入的。因此，插入聚集索引一般是顺序的，不需要磁盘的随机读取。...

2014-07-01 16:07:49 133

原创分布式事务blog

http://coolshell.cn/articles/10910.html

2014-05-08 00:21:03 77

原创 netty学习blog

http://blog.csdn.net/u013252773/article/details/21046697

2014-05-05 09:38:07 90

原创 netty 零拷贝

http://my.oschina.net/plucury/blog/192577 mmap()系统调用使得进程之间通过映射同一个普通文件实现共享内存 sendfile()是作用于数据拷贝在两个文件描述符之间的操作函数.这个拷贝操作是内核中操作的,所以称为"零拷贝".Linux "零拷贝" sendfile函数中文说明及实际操作分析http://blog.csdn.ne...

2014-04-25 09:24:23 227

原创批量转码工具

find cozy.base -type d -exec mkdir -p cozy/{} \;find cozy.base -exec sh -c "iconv -f GB18030 -t UTF8 {} > utf/{}" \;

2014-04-18 11:52:09 280

原创 zookeeper好的文章

http://shift-alt-ctrl.iteye.com/blog/1846865http://www.csdn.net/article/2013-12-27/2817944-zookeeperhttp://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html

2014-04-04 17:44:30 176

原创 spring mvc 好的文档

http://jinnianshilongnian.iteye.com/

2014-03-30 13:32:24 98

原创 hbase例子

https://github.com/mozilla/socorrohttps://github.com/mozilla-metrics/socorro-toolboxhttps://github.com/Huawei-Hadoop/hindexhttps://github.com/sonalgoyal/crux/tree/aggregation/testData/BseStoc...

2014-01-17 11:44:03 110

原创 HBase性能调优

引自http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：Regio...

2014-01-16 21:17:47 92

原创 Hive调优实战

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如...

2014-01-16 21:09:48 122

原创 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为7...

2014-01-16 21:03:10 123

原创 HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据...

2014-01-13 12:36:13 108

原创 Hive 数据倾斜总结

转载：http://www.tbdata.org/archives/2109几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些 Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大...

2014-01-13 12:15:36 101

原创 hive merge file

当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小 1. Map输入合并小文件对应参数： set mapred.max.split...

2014-01-11 10:12:58 497

原创 Hive MapJoin 优化

1、Hive本地MR 如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地内存是吃不消的。So the query processor will launch this task in a child jvm, which has the same heap size as the Ma...

2014-01-11 10:05:49 96

原创深入学习《Programing Hive》：数据压缩

Hive使用的是Hadoop的文件系统和文件格式，比如TEXTFILE，SEQUENCEFILE等。在Hive中对中间数据或最终数据数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多，同时压缩后的文件在磁盘间传输和I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以节...

2014-01-08 17:22:32 217

原创 Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on write（写时模式）...

2014-01-08 17:21:09 174

原创 MongoDB优化的方法

引自http://www.2cto.com/database/201203/123993.html部署优化(Linux系统): 1.关闭MongoDB数据存储所在文件的atime(mount -o remount,noatime,nodiratime) 2.设置file descriptor limit和user process limit为4k+ 3.选择正确的...

2013-11-27 22:52:15 116

原创 mongodb的监控与性能优化

引自http://my.oschina.net/baowenke/blog/97756 mongodb可以通过profile来监控数据，进行优化。查看当前是否开启profile功能用命令db.getProfilingLevel() 返回level等级，值为0|1|2，分别代表意思：0代表关闭，1代表记录慢命令，2代表全部开始profile功能为db.setProfili...

2013-11-27 22:41:04 83

空空如也

空空如也