Java-String常用工具-返回常用汉字首字母

最新推荐文章于 2022-11-28 17:57:57 发布

羽羊

最新推荐文章于 2022-11-28 17:57:57 发布

阅读量775

点赞数

分类专栏： Java

Java 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

程序处理逻辑：

GB2312-80 把收录的汉字分成两级。
第一级汉字是常用汉字，计 3755 个，置于 16～55区，按汉语拼音字母／笔形顺序排列；
第二级汉字是次常用汉字，计 3008 个，置于 56～87 区，按部首／笔画顺序排列；
GB码两个字节分别减去160，转换成10进制码组合就可以得到区位码。
例如：
1、汉字“你”的GB码是0xC4/0xE3；
2、分别减去0xA0（160）就是0x24/0x43；
3、0x24转成10进制就是36，0x43是67，那么它的区位码就是3667；
4、在对照表中读音为‘n’；

程序说明：

本程序只能查到对一级汉字的声母，同时对符合声母（zh，ch，sh）只能取首字母（z，c，s），查不到的返回“ ”（空格）号。

package com.test;

import java.io.UnsupportedEncodingException;

public class StringToPinYin {

	/*国标码和区位码转换常量*/
	static final int GB_SP_DIFF = 160;
	
	/* 存放国标一级汉字不同读音的起始区位码 */
	static final int[] secPosValueList = { 1601, 1637, 1833, 2078, 2274, 2302,
			2433, 2594, 2787, 3106, 3212, 3472, 3635, 3722, 3730, 3858, 4027,
			4086, 4390, 4558, 4684, 4925, 5249, 5600 };

	/* 存放国标一级汉字不同读音的起始区位码对应读音 */
	static final char[] firstLetter = { 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h',
			'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'w', 'x',
			'y', 'z' };

	/* 获取一个字符串的拼音码 */
	public static String getFirstLetter(String iSoriStrtr) {
		String str = iSoriStrtr.toLowerCase();
		StringBuffer buffer = new StringBuffer();
		char ch;
		char[] temp;
		for (int i = 0; i < str.length(); i++) { // 依次处理str中每个字符
			ch = str.charAt(i);
			temp = new char[] { ch };
			byte[] uniCode;
			try {
				uniCode = new String(temp).getBytes("GB2312");
				if (uniCode[0] < 128 && uniCode[0] > 0) { // 非汉字
					buffer.append(temp);
				} else {
					buffer.append(convert(uniCode));
				}
			} catch (UnsupportedEncodingException e) {
				e.printStackTrace();
			}
		}
		return buffer.toString();
	}
	
	/*获取一个单词的首字母*/
	private static char convert(byte[] bytes) {
		char result = ' ';
		int secPosValue = 0;
		int i;
		for (i = 0; i < bytes.length; i++) {
			bytes[i] -= GB_SP_DIFF;
		}
		secPosValue = bytes[0] * 100 + bytes[1];

		for (i = 0; i < 23; i++) {
			if (secPosValue >= secPosValueList[i] && secPosValue < secPosValueList[i + 1]) {
				result = firstLetter[i];
				break;
			}
		}
		return result;
	}

	public static void main(String[] args) {
		System.out.println(getFirstLetter("你"));
	}

}

羽羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java-String常用工具-返回常用汉字首字母

程序处理逻辑：GB2312-80 把收录的汉字分成两级。第一级汉字是常用汉字，计 3755 个，置于 16～55区，按汉语拼音字母／笔形顺序排列；第二级汉字是次常用汉字，计 3008 个，置于 56～87 区，按部首／笔画顺序排列；GB码两个字节分别减去160，转换成10进制码组合就可以得到区位码。例如：1、汉字“你”的GB码是0xC4/0xE3；2、分别减去0xA0
复制链接

扫一扫