Java面试题之一---------字符串截取（字节分配）（编码）

最新推荐文章于 2022-08-18 09:53:01 发布

learning_code_blog

最新推荐文章于 2022-08-18 09:53:01 发布

阅读量1.2k

点赞数

分类专栏：字符串处理 Java学习之路文章标签：字符串截取

本文链接：https://blog.csdn.net/yangxin_blog/article/details/48228797

版权

Java学习之路同时被 2 个专栏收录

47 篇文章 3 订阅

订阅专栏

字符串处理

2 篇文章 0 订阅

订阅专栏

在java中，字符串“abcd”与字符串“ab你好”的长度是一样，都是四个字符。
但对应的字节数不同，一个汉字占两个字节。
定义一个方法，按照指定的字节数来取子串。

如：对于“ab你好”，如果取三个字节，那么子串就是ab与“你”字的半个，那么半个就要舍弃。如果取四个字节就是“ab你”，取五个字节还是“ab你”。

<span style="font-size:18px;">package cn.hncu.IO;

import java.io.IOException;
import java.io.UnsupportedEncodingException;

public class Stringcut {

	public static void main(String[] args) throws IOException {
			String str ="abc你好呀vfc";
			byte a[]=str.getBytes("gbk");
			System.out.println(str);
			for(int i=0;i<=a.length;i++){
				String s=cutStringbkbk(str,i);
				System.out.println("取"+i+"个字节之后： "+s);
			}
	}
private static String cutStringbkbk(String str, int i) throws IOException {
	if(System.getProperty("file.encoding").equalsIgnoreCase("gbk")){
		return cutStringgbk(str,i);
	}
	if(System.getProperty("file.encoding").equalsIgnoreCase("utf-8")){
		return cutStringutf(str,i);
	}
	return null;
	}
/*
 * 这个为GBK编码，一个汉字两个字节,一正一负
 */
	private static String cutStringgbk(String str, int len) throws IOException {
		byte[] a=str.getBytes();//放入字节数组
		int count=0;
		for(int i=len-1;i>=0;i--){//从传进来的len-1个开始,防止有的汉字编码出现正负两个
			if(a[i]<0){//若小于0，则为汉字编码，计数加1
				count++;
			}else{
				break;//若大于0，则出现的可能是字符。说明这个位置不是汉字编码了，再根据count与2取余是否能等于0
			}
		}
		if(count%2==0){//说明汉字的字节数是完整的，返回所有的传进来的字节数
			return new String(a,0,len);
		}else{//汉字字节不完整，所有去掉其余部分，返回完整的信息
			return new String(a,0,len-1);
		}
	}
	
	/*
	 * 为ＵＴＦ－８格式，和上面的一样，只是汉字的字节数是3个字节，在判断时候需要修改下
	 */
	private static String cutStringutf(String str, int len) throws IOException {
		byte[] a=str.getBytes("utf-8");
		int count=0;
		for(int i=len-1;i>=0;i--){
			if(a[i]<0){
				count++;
			}else{
				break;
			}
		}
		if(count%3==0){
			return new String(a,0,len);
		}else{
			return new String(a,0,len-count%3);
		}
		
	}

	

}
</span>

原理很简单，就是用到汉字的字节和一般的不一样，在GBK中，一个汉字是两个字节（负数），在Utf_8中，一个汉

字是3个字节，三个负数。然后根据符号不一样来进行判断

learning_code_blog

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java面试题之一---------字符串截取（字节分配）（编码）

在java中，字符串“abcd”与字符串“ab你好”的长度是一样，都是四个字符。但对应的字节数不同，一个汉字占两个字节。定义一个方法，按照指定的字节数来取子串。如：对于“ab你好”，如果取三个字节，那么子串就是ab与“你”字的半个，那么半个就要舍弃。如果取四个字节就是“ab你”，取五个字节还是“ab你”。 package cn.hncu.IO;import java.i
复制链接

扫一扫

专栏目录