C++ 带中文字符串分割

9 篇文章 0 订阅

 两种方式,一种按分隔符分割,一种按指定长度分割.

按指定长度分割一个汉字长度位2,下面是代码:

// TestStringSplit.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include <vector>
using namespace std;



/*******************
*作用 :按分隔符分割字符串
*参数:
*std::string str, 要分割的字符串
*std::string pat, 分割符
*bool isRemovePat,是否去掉分隔符
*int patSplitPos=-1  开始查找分隔符的下标
*返回值  分割好的字符串集合
*************************/
std::vector<std::string> split(std::string str, std::string pat,bool isRemovePat=true,int patSplitPos=-1)
{
	printf("分隔符:%s\n",pat.data());
	if(patSplitPos==-1)
	{
		patSplitPos=pat.size();
	}
	std::vector<std::string> bufStr;
	while (true)
	{
		int index = str.find(pat);
		int iSplitPos=0;//分割点
		int iEraserPos=0;//分割点
		if (isRemovePat||index==-1)//如果去掉分割字符串
		{
			iSplitPos=index;
			iEraserPos=index+ pat.size();
		}else
		{
			iSplitPos =index+patSplitPos;
			iEraserPos=index+ patSplitPos;
		}
		std::string subStr = str.substr(0, iSplitPos);
		if (!subStr.empty())
		{
			printf("%s|",subStr.data());
			bufStr.push_back(subStr);
		}
		str.erase(0, iEraserPos);
		if (index == -1)
			break;
	}
	printf("\n");
	return bufStr;
}


/*******************
*作用 :按指定长度分割字符串
*参数:
*string strOld, 要分割的字符串
*int   len  指定分割长度
*返回值  分割好的字符串集合
*************************/
std::vector<std::string> SplitStringWithLenth(std::string strOld,int len)
{
	printf("len=%d \n",len);
	vector<std::string> vtStr;
	vtStr.clear();
	int lenth=strOld.length();
	if(lenth<=len||len<=0)
	{
		vtStr.push_back(strOld);
	}else
	{
		int CharCount=0;
		int start=0;
		int pos=0;
		while(pos<lenth)
		{
    		if (strOld[pos] & 0x80)
			{
				CharCount+=2;
				pos+=2;
			}else
			{
				CharCount+=1;
				pos++;
			}
			if((CharCount>=len)||//长度等于指定长度或比指定长度大1
				(pos==lenth))//长度不足指定长度但已到字符串结尾
			{
				std::string s=strOld.substr(start,CharCount);
				vtStr.push_back(s);
				start=pos;
				CharCount=0;
				printf("%s|",s.data());
			}else
			{
				continue;
			}
		}
	}
	printf("\n");
	return vtStr;

}

int _tmain(int argc, _TCHAR* argv[])
{
	//string str="{\"KEY\"}";
	//std::vector<std::string> plits = split(str, "}{\"",false,1);
	//for (int i = 0; i < plits.size(); i++)
	//{
	//	printf(" %s", plits.at(i).c_str());
	//}
	//printf("\n原:%sn",str.c_str());
	//printf("size()= %d  length()= %d\n",str.size(),str.length());
	//printf("str[str.size()]=%X  str[str.length()]=%X  str[str.length()-1]=%C\n",str[str.size()],str[str.length()],str[str.length()-1]);
	/*string str1="喊";
	printf("%s   :size=%d    length=%d   strlen.data()=%d   strlen.c_str()=%d\n",str1.data(),str1.size(),str1.length(),strlen(str1.data()),strlen(str1.c_str()));
	str1="1";
	printf("%s   :size=%d    length=%d   strlen.data()=%d   strlen.c_str()=%d\n",str1.data(),str1.size(),str1.length(),strlen(str1.data()),strlen(str1.c_str()));
	str1="1安";
	printf("%s   :size=%d    length=%d   strlen.data()=%d   strlen.c_str()=%d\n",str1.data(),str1.size(),str1.length(),strlen(str1.data()),strlen(str1.c_str()));
	str1="\r\n";
	printf("%s   :size=%d    length=%d   strlen.data()=%d   strlen.c_str()=%d\n",str1.data(),str1.size(),str1.length(),strlen(str1.data()),strlen(str1.c_str()));*/


	std::string str="莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。";
	split(str,",");
	split(str,",",false);
	split(str,"打叶声,",false);
	split(str,"雨",false);
	split(str,"。");
	int  n=1;
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	SplitStringWithLenth(str,n++);
	
	system("pause");
	return 0;
}

结果:

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126),否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非 单ASCII字符的判断, 可以根据以下规则(主要R3, R4); : 一个字符串的长度==1,那肯定是一个ASCII字符; : 一个字符串的长度==2,且第1个ASCII字符的编码小于'~'; 那肯定是2个单ASCII字符; -- (PS: "") : 一个字符串的长度==3,且中间的ASCII字符的编码小于'~'; 那第3个肯定是单ASCII字符; (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~', 那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择,需要知道以下信息: (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内, 最后一个单ASCII字符的结束下标 p 在此基础上, 若使用: y -- 表示单ASCII字符(已确定的); x -- 表示可能是 单ASCII字符,也可能是 汉字的半个ASCII存储码; 那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在 【s, e】 之间, 查找结束下标p 的思路: 从e开始向s查找, 找到 第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在 位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性! :)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值