C++标准库从C++11开始提供了std::codecvt_utf8和std::codecvt_byname两个转换器来完成编码转换,其中std::codecvt_utf8用于 utf8编码与unicode之间的转换,GBK与unicode之间的转换则需要通过std::codecvt_byname 来完成,并需要指定locale_name参数,此参数windows与linux下并不相同。
在windows下取值:
标准:
zh_CN
.936
Chinese_China.936
非标准:
chs
Chinese-simplified
Chinese
ZHI
linux下取值:
zh_CN.GBK
zh_CN.GB2312
zh_CN.GB18030
这里提供了几个封装的转换函数:
Encode.h
#pragma once
#include <string>
#include <codecvt>
class codecvt_gbk : public std::codecvt_byname<wchar_t, char, std::mbstate_t>
{
public:
codecvt_gbk()
#ifdef WINDOWS
:codecvt_byname("zh_CN")
#else
: codecvt_byname("zh_CN.GBK")
#endif
{
}
};
std::wstring GbkToUnicode(const std::string& str);
std::string UnicodeToGbk(const std::wstring& str);
std::wstring Utf8ToUnicode(const std::string& str);
std::string UnicodeToUtf8(const std::wstring& str);
std::string GbkToUtf8(const std::string& str);
std::string Utf8ToGbk(const std::string& str);
Encode.cpp
#include "Encode.h"
#include <locale>
#include <codecvt>
static std::wstring_convert<codecvt_gbk> s_GbkConvert;
static std::wstring_convert<std::codecvt_utf8<wchar_t>> s_Utf8Convert;
std::wstring GbkToUnicode(const std::string& str)
{
return s_GbkConvert.from_bytes(str);
}
std::string UnicodeToGbk(const std::wstring& str)
{
return s_GbkConvert.to_bytes(str);
}
std::wstring Utf8ToUnicode(const std::string& str)
{
return s_Utf8Convert.from_bytes(str);
}
std::string UnicodeToUtf8(const std::wstring& str)
{
return s_Utf8Convert.to_bytes(str);
}
std::string GbkToUtf8(const std::string& str)
{
return s_Utf8Convert.to_bytes(s_GbkConvert.from_bytes(str));
}
std::string Utf8ToGbk(const std::string& str)
{
return s_GbkConvert.to_bytes(s_Utf8Convert.from_bytes(str));
}
main.cpp
#include <iostream>
#include "Encode.h"
using namespace std;
void PrintString(u8string str)
{
for (auto it = str.begin(); it != str.end(); ++it)
{
printf("%02X", *it);
}
printf("\n\n");
}
void PrintString(string str)
{
for (auto it = str.begin(); it != str.end(); ++it)
{
printf("%02X", (char8_t)*it);
}
printf("\n\n");
}
void PrintWstring(wstring wstr)
{
for (auto it = wstr.begin(); it != wstr.end(); ++it)
{
printf("%04X", *it);
}
printf("\n\n");
}
int main()
{
string str = "中信建投国家电投新能源REIT";
auto ustr = GbkToUtf8(str);
u8string ustr2 = u8"中信建投国家电投新能源REIT";
auto str2 = Utf8ToGbk((char*)ustr2.c_str());
cout << str << endl;
cout << str2 << endl;
cout << (char*)ustr.c_str() << endl;
cout << (char*)ustr2.c_str() << endl;
PrintString(str);
PrintString(str2);
PrintString(ustr);
PrintString(ustr2);
return 0;
}
运行结果:
中信建投国家电投新能源REIT
中信建投国家电投新能源REIT
涓俊寤烘姇鍥藉鐢垫姇鏂拌兘婧怰EIT
涓俊寤烘姇鍥藉鐢垫姇鏂拌兘婧怰EIT
D6D0D0C5BDA8CDB6B9FABCD2B5E7CDB6D0C2C4DCD4B452454954
D6D0D0C5BDA8CDB6B9FABCD2B5E7CDB6D0C2C4DCD4B452454954
E4B8ADE4BFA1E5BBBAE68A95E59BBDE5AEB6E794B5E68A95E696B0E883BDE6BA9052454954
E4B8ADE4BFA1E5BBBAE68A95E59BBDE5AEB6E794B5E68A95E696B0E883BDE6BA9052454954