今天花了些时间,想准备1千万条数据用于测试不同算法的排序性能。
刚开始的思路是:使用Apache的IOUtils操作文件,Apache的Common-lang中的StringUtils.join(int[], ",")将int[] 转换为string保存到文件。
读出数据,通过String.split(","),再转换为int[]。
想想就觉得别扭,转来转去的,特别是数据量大了,1千万条,极其耗CPU,速度不理想。
调优前:
1百万:保存需要260ms多,读取需要1s多。
1千万:保存需要6s多,读取需要14s多。
调优后:
1百万:保存需要50ms,读取需要50ms。
1千万:保存需要400ms多,读取需要4.2s多。
(读取慢,主要原因是初始堆内存太小-100m,几次垃圾回收就用掉了3s多)
调整jvm参数:-Xms4096m -Xmx4096m -Xmn2048m
1百万:保存需要50ms,读取需要50ms。
1千万:保存需要400ms多,读取需要200ms多。
3千万:保存需要1.5s多,读取需要530ms多。
5千万:保存需要2.6s多,读取需要870ms多。
1亿:保存需要5.3s多,读取时间长,不可接受。
(上亿条之后,需要20*1亿,2G多的内存,超过虚拟机设置的新生代内存大小,所以爆慢,可以理解。不知道为什么不报OutOfMemory异常)。
1千万条数据内存占用分析。
数组需要连续的一大块内存,分配1千万条Integer(20&