笔者最近在研究小语种域名,需要先将punycode编码的域名(即带有“xn--”的域名)转成Unicode编码的域名(即以小语种形式表示的域名),并判断语种。可是,在将数据写入数据库的时候中文变成了乱码,???的形式,即一个中文用一个“?”代替了。
经过多次查找资料及尝试,发现解决此类问题可以从三方面进行排查:
1、数据库和表的编码
2、与数据库建立连接的时候设置编码格式
3、C++存储中文
接下来我将详细叙述。
1、数据库和表的编码
1.1查看数据库编码
mysql的默认编码是latinl不支持中文,进入mysql数据库,可以使用命令show variables like "%char%";
去查看mysql数据库的的编码格式。
首先不可否认的是使用set names utf8
这条SQL命令对mysql数据库的编码格式设置为utf8,是可以解决查询数据库时出现的中文乱码问题的。但输入set names utf8只对当前连接的编码设置有效,不然上图中也不会还存在latin1缺省了。具体原因参见
https://my.oschina.net/mjRao/blog/100661
那么这些字符集系统变量都是什么意思呢?