Java排序含有中文的字符串

最新推荐文章于 2024-06-07 23:39:43 发布

t梧桐树t

最新推荐文章于 2024-06-07 23:39:43 发布

阅读量562

点赞数

分类专栏： java基础文章标签： java 开发语言

本文链接：https://blog.csdn.net/winerpro/article/details/128277901

版权

java基础专栏收录该内容

10 篇文章

订阅专栏

本文介绍了ICU4J的历史背景及其主要功能，包括字符集转换、排序规则、格式化等，并对比了ICU4J与Java内置Collator类在中文排序上的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

icu4j

ICU首先是由Taligent公司开发的，Taligent公司被合并为IBM公司全球化认证中心的Unicode研究组后，ICU由IBM和开源组织合作继续开发。开始ICU只有Java平台的版本，后来这个平台下的ICU类被吸纳入SUN公司开发的JDK1.1，并在JDK以后的版本中不断改进。C++和C平台下的ICU是由JAVA平台下的ICU移植过来的，移植过的版本被称为ICU4C，来支持这C/C++两个平台下的国际化应用。ICU4J和ICU4C区别不大，但由于ICU4C是开源的，并且紧密跟进Unicode标准，ICU4C支持的Unicode标准总是最新的；同时，因为JAVA平台的ICU4J的发布需要和JDK绑定，ICU4C支持Unicode标准改变的速度要比ICU4J快的多。

ICU的功能主要有:

代码页转换: 对文本数据进行Unicode、几乎任何其他字符集或编码的相互转换。ICU的转化表基于IBM过去几十年收集的字符集数据，在世界各地都是最完整的。
排序规则（Collation）: 根据特定语言、区域或国家的管理和标准比较字数串。ICU的排序规则基于Unicode排序规则算法加上来自公共区域性数据仓库（Common locale data repository）的区域特定比较规则。
格式化: 根据所选区域设置的惯例，实现对数字、货币、时间、日期、和利率的格式化。包括将月和日名称转换成所选语言、选择适当缩写、正确对字段进行排序等。这些数据也取自公共区域性数据仓库。
时间计算: 在传统格里历基础上提供多种历法。提供一整套时区计算API。
Unicode支持: ICU紧密跟进Unicode标准，通过它可以很容易地访问Unicode标准制定的很多Unicode字符属性、Unicode规范化、大小写转换和其他基础操作。
正则表达式: ICU的正则表达式全面支持Unicode并且性能极具竞争力。
Bidi: 支持不同文字书写顺序混合文字（例如从左到右书写的英语，或者从右到左书写的阿拉伯文和希伯来文）的处理。
文本边界: 在一段文本内定位词、句或段落位置、或标识最适合显示文本的自动换行位置。

Maven依赖

<dependency>
    <groupId>com.ibm.icu</groupId>
    <artifactId>icu4j</artifactId>
    <version>68.2</version>
</dependency>

测试

@Test
    public void test() {
        List<String> list = new ArrayList<>();
        list.add("中国");
        list.add("中东");
        list.add("北京");
        list.add("河北");
        list.add("石家庄");
        list.add("一年");
        list.add("两年半");
        list.add("安全帽");
        list.add("钛媒体");
        System.out.println("排序前：" + list);
        com.ibm.icu.text.Collator comIbmIcuTextCollator = com.ibm.icu.text.Collator.getInstance();
        list.sort(new Comparator<String>() {
            @Override
            public int compare(String o1, String o2) {
                return comIbmIcuTextCollator.compare(o1, o2);
            }
        });
        System.out.println("排序后：" + list);
    }
    //排序前：[中国, 中东, 北京, 河北, 石家庄, 一年, 两年半, 安全帽, 钛媒体]
    //排序后：[安全帽, 北京, 河北, 两年半, 石家庄, 钛媒体, 一年, 中东, 中国]

注意: 对于Collator类java本人也有,而且也支持排序,但是会有问题,我们可以试试java,text下的Collator的效果.

@Test
    public void test() {
        List<String> list = new ArrayList<>();
        list.add("中国");
        list.add("中东");
        list.add("北京");
        list.add("河北");
        list.add("石家庄");
        list.add("一年");
        list.add("两年半");
        list.add("安全帽");
        list.add("钛媒体");
        System.out.println("排序前：" + list);
        Collator instance = Collator.getInstance();
        list.sort(new Comparator<String>() {
            @Override
            public int compare(String o1, String o2) {
                return instance.compare(o1, o2);
            }
        });
        System.out.println("排序后：" + list);
    }
    //排序前：[中国, 中东, 北京, 河北, 石家庄, 一年, 两年半, 安全帽, 钛媒体]
    //排序后：[安全帽, 北京, 河北, 两年半, 石家庄, 一年, 中东, 中国, 钛媒体]

同样的集合排序出现了问题,"钛媒体"这个词应该在前面才对,这是因为java.text.Collator使用的顺序是其字符串包含的字符在指定语言当中的顺序（譬如中文汉字编著入库的顺序），是locale敏感的，为此不能做到任何环境下所有字符统一处理.所以推荐使用icu4j下的Collator来进行排序.