最近在自己搭建的博客上发布文章内容时,无意中在文章内容写入了一个表情包,导致了 Mysql 报出下面错误。
Cause: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x91\x87\xE7\x9A...' for column 'content' at row 1
这个 bug 可以说是无意中产生的,刚开始排查起来也比较困难,完全不知道是因为一个表情包导致的,最后对比一下文章的内容,才找出 bug 的原因,也通过这个 bug 了解了 Mysql 一些知识。在此记录一下。
报错的原因在于: MySQL中 utf8 的编码格式最多会用 3 个字节来存储一个字节,而如果一个字符超过的 4 个字节,那么在写入数据库时就会报出上面的错误。
什么样的字符是需要 4 个字节存储,比如这个 👇 这个表情包。
一个字符需要4个字节才能存储,那么就得使用 utf8mb4(ps:mb4 max byte 4),这种编码方式最多使用 4个字节来存储一个字符。
可以在 Mysql 客户端,通过下面语句查看
select * from information_schema.CHARACTER_SETS where CHARACTER_SET_NAME like 'utf8%'
显示的结果
+--------------------+----------------------+---------------+--------+
| CHARACTER_SET_NAME | DEFAULT_COLLATE_NAME | DESCRIPTION | MAXLEN |
+--------------------+----------------------+---------------+--------+
| utf8 | utf8_general_ci | UTF-8 Unicode | 3 |
| utf8mb4 | utf8mb4_general_ci | UTF-8 Unicode | 4 |
+--------------------+----------------------+---------------+--------+
2 rows in set (0.04 sec)
utf8mb4 这种编码格式从 Mysql 5.5.3版本才开始支持,所以如果你的 Mysql 版本低于 5.5.3 版本,那赶紧升级把!
解决方式:
修改 Mysql 数据中数据表的编码格式,设置成 utf8mb4
第一种:通过 navicat 修改表中指定字段的编码格式。
比如下面修改 content 字段的编码格式。
第二种:通过 Mysql 命令修改指定字段的编码方式
格式:
alter table <表名> modify column <字段名> <字段类型> character set utf8mb4 collate utf8mb4_unicode_ci;
例子:
alter table t_blog modify column content longtext character set utf8mb4 collate utf8mb4_unicode_ci;
修改后可以通过下面语句来查看表的结构
show create table <表名>
如果想修改整张表的编码格式,可以通过下面语句
alter table <表名> character set utf8mb4;
例:alter table b_blog character set utf8mb4;
解决了 MySQL 的编码格式后,接下来还需要修改程序JDBC Connection 连接对象的编码格式。
创建 Connection 后,调用下面方法修改编码格式
conn.createStatement().execute("SET names 'utf8mb4'");
如果使用了数据源,那么就要添加 connectionInitSqls
属性的值。
例如 DruidDataSource
在 application.yaml 中添加下面属性
connectionInitSqls: ["set names utf8mb4;"]