- 博客(7)
- 收藏
- 关注
原创 深入分析 Java 中的中文编码问题
深入分析 Java 中的中文编码问题几种常见的编码格式为什么要编码不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言。由于人类的语言有太多,因而表示这些语言的符号太多,无法用计算机中一个基本的存储单元—— byte 来表示,因而必须要经过...
2011-07-09 02:39:17 4637
原创 用hadoop大规模数据全局排序
使用hadoop进行大量的数据排序排序最直观的方法是把文件所有内容给map之后,map不做任何处理,直接输出给一个reduce,利用hadoop的自己的shuffle机制,对所有数据进行排序,而后由reduce直接输出。然而这样的方法跟单机毫无差别,完全无法用到多机分布式计算的便利。因此这种方法是不行的。利用hadoop分而治之的计算模型,可以参照快速排序的思想。在这里我们先简单回忆一...
2011-06-26 10:22:18 187
谈谈日志分析
日志分析方法概述:日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在...
2011-06-26 10:14:06 174
原创 十道海量数据处理面试题与十个方法大总结(转blog.csdn.ne)
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中...
2011-04-06 13:42:41 138
原创 java内存泄漏的几个地方
Java不需要程序员自己管理内存,但是在实际开发中总可能会出现内存泄漏的情况。effective java 上记载一般java内存泄漏有如下三种情况:1 过期引用 所谓过期引用就是永远不解除的引用(总有引用指向这个对象),java的垃圾回收机制的前提是该对象无引用指向。在集合中经常可以看见删除一个对象的时候需将其引用置为null,否则这个对象是不会被回收的。2 缓存: ...
2010-08-03 15:44:15 184
tomcat代码解析
自从去年开通博客后从来就没有写过文章,在下实在是很惭愧啊,这一年多来在javaeye上学了不少的东西,也看过很多技术牛人的博客,心里也一直想:哪天要能自己写些工作体会,学习历程和大家分享下一定会非常有意义。午夜0点半,终于决定要在javaeye上多写些自己的心得体会,一个是为了自己总结方便,二是也希望能广大javaer批评指正。我一直想对一些开源源代码进行解析。我也知道自己水平很浅,但是工作这...
2010-03-11 00:31:18 95
我的博客开通了
一直想有一个自己的技术博客,由于以前比较懒,发现 Javaeye上好多大牛啊 ,希望能借这个平台和大家好好沟通一下,我以后的博客会写关于 j2ee soa bpm, swing方向的文章。欢迎大家来我的博客做客,希望大家多多指教。...
2009-06-13 09:48:04 116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人