unicode编码转换为字符的形式

问题:在从数据库中取出数据用来建立Lucene索引时,遇到形如“\u041A\u0430\u0441\u0442\u0438\u043B\u0438\u044F - \u041B\u0430 \u041C\u0430\u043D\u0447\u0430”的字符串,length为94,而其实是字符串“Кастилия - Ла Манча”的Unicode形式(length为19)。若直接存入Lucene,而在查询时候用String str=“\u041A\u0430\u0441\u0442\u0438\u043B\u0438\u044F - \u041B\u0430 \u041C\u0430\u043D\u0447\u0430”查找时,找不到相应的结果。

解决方案:在建立索引时,先将unicode转换为它所表达的字符的形式(即将字符串“\u041A”转换为“К“),再存入索引中,转换代码如下:

/**
 * 
 * @author Qingxia Liu 2013-8-7 上午10:54:03
 *
 */
public class StringConverter {
	public static String UnicodeToString(String str) {
        Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");    
        Matcher matcher = pattern.matcher(str);
        char ch;
        while (matcher.find()) {
            ch = (char) Integer.parseInt(matcher.group(2), 16);
            str = str.replace(matcher.group(1), ch + "");    
        }
        return str;
    }
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值