unicode
编码简而言之就是将每一个字符用
16
位
2
进制数标识。但是通常都用
4
位的
16
进制数标识。
例如:
1) 中文字符串 " 你好 " 的 unicode 码为: \u4f60\u597d;
2) 英文字符串 "ab" 的 unicode 码为: \u0061\u0062 ;
其中 \u 是标识 unicode 码用的,后面的 4 位 16 进制数则是对应字符的 unicode 码。
unicode 码在 J2EE 项目中应用广泛, java 对 unicode 码提供了很好的支持。例如国际化,则是 unicode 的经典运用。
那么 unicode 的编码规则具体是什么,如何用程序实现?
1 、unicode编码规则
unicode 码对每一个字符用 4 位 16 进制数表示。具体规则是:将一个字符 (char) 的高 8 位与低 8 位分别取出,转化为 16 进制数,
如果转化的 16 进制数的长度不足 2 位,则在其后补 0 ,然后将高、低 8 位转成的 16 进制字符串拼接起来并在前面补上 "\u" 即可。
2 、转码程序
1) 字符串转unicode
/**
* 将字符串转成 unicode
* @param str 待转字符串
* @return unicode 字符串
*/
public String convert(String str)
{
str = (str == null ? "" : str);
String tmp;
StringBuffer sb = new StringBuffer(1000);
char c;
int i, j;
sb.setLength(0);
for (i = 0; i < str.length(); i++)
{
c = str.charAt(i);
sb.append("\\u");
j = (c >>>8); // 取出高 8 位
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
j = (c & 0xFF); // 取出低 8 位
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
}
return (new String(sb));
}
2)unicode 转成字符串,与上述过程反向操作即可
/**
* 将 unicode 字符串
* @param str 待转字符串
* @return 普通字符串
*/
public String revert(String str)
{
str = (str == null ? "" : str);
if (str.indexOf("\\u") == -1)// 如果不是 unicode 码则原样返回
return str;
StringBuffer sb = new StringBuffer(1000);
for (int i = 0; i < str.length() - 6;)
{
String strTemp = str.substring(i, i + 6);
String value = strTemp.substring(2);
int c = 0;
for (int j = 0; j < value.length(); j++)
{
char tempChar = value.charAt(j);
int t = 0;
switch (tempChar)
{
case 'a':
t = 10;
break;
case 'b':
t = 11;
break;
case 'c':
t = 12;
break;
case 'd':
t = 13;
break;
case 'e':
t = 14;
break;
case 'f':
t = 15;
break;
default:
t = tempChar - 48;
break;
}
c += t * ((int) Math.pow(16, (value.length() - j - 1)));
}
sb.append((char) c);
i = i + 6;
}
return sb.toString();
}
例如:
1) 中文字符串 " 你好 " 的 unicode 码为: \u4f60\u597d;
2) 英文字符串 "ab" 的 unicode 码为: \u0061\u0062 ;
其中 \u 是标识 unicode 码用的,后面的 4 位 16 进制数则是对应字符的 unicode 码。
unicode 码在 J2EE 项目中应用广泛, java 对 unicode 码提供了很好的支持。例如国际化,则是 unicode 的经典运用。
那么 unicode 的编码规则具体是什么,如何用程序实现?
1 、unicode编码规则
unicode 码对每一个字符用 4 位 16 进制数表示。具体规则是:将一个字符 (char) 的高 8 位与低 8 位分别取出,转化为 16 进制数,
如果转化的 16 进制数的长度不足 2 位,则在其后补 0 ,然后将高、低 8 位转成的 16 进制字符串拼接起来并在前面补上 "\u" 即可。
2 、转码程序
1) 字符串转unicode
/**
* 将字符串转成 unicode
* @param str 待转字符串
* @return unicode 字符串
*/
public String convert(String str)
{
str = (str == null ? "" : str);
String tmp;
StringBuffer sb = new StringBuffer(1000);
char c;
int i, j;
sb.setLength(0);
for (i = 0; i < str.length(); i++)
{
c = str.charAt(i);
sb.append("\\u");
j = (c >>>8); // 取出高 8 位
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
j = (c & 0xFF); // 取出低 8 位
tmp = Integer.toHexString(j);
if (tmp.length() == 1)
sb.append("0");
sb.append(tmp);
}
return (new String(sb));
}
2)unicode 转成字符串,与上述过程反向操作即可
/**
* 将 unicode 字符串
* @param str 待转字符串
* @return 普通字符串
*/
public String revert(String str)
{
str = (str == null ? "" : str);
if (str.indexOf("\\u") == -1)// 如果不是 unicode 码则原样返回
return str;
StringBuffer sb = new StringBuffer(1000);
for (int i = 0; i < str.length() - 6;)
{
String strTemp = str.substring(i, i + 6);
String value = strTemp.substring(2);
int c = 0;
for (int j = 0; j < value.length(); j++)
{
char tempChar = value.charAt(j);
int t = 0;
switch (tempChar)
{
case 'a':
t = 10;
break;
case 'b':
t = 11;
break;
case 'c':
t = 12;
break;
case 'd':
t = 13;
break;
case 'e':
t = 14;
break;
case 'f':
t = 15;
break;
default:
t = tempChar - 48;
break;
}
c += t * ((int) Math.pow(16, (value.length() - j - 1)));
}
sb.append((char) c);
i = i + 6;
}
return sb.toString();
}