在8.0版本之前,MySQL默认的字符集为latin1,而8.0版本默认的字符集为utf8mb4。
latin1是ISO-8859-1的别名,有些环境下写作latin-1。ISO-8859-1编码是单字节编码,不支持中文等多字节字符,但向下兼容ASCII,其编码范围是0x00-0xFF、0x00-0x7F之间完全和ASCII一致、0x80-0x9F之间是控制字符、0xA0-0xFF之间是文字符号。
MySQL中utf8字符集是utf8mb3的别称,使用三个字节编码表示一个字符。自MySQL 4.1版本被引入,能够支持绝大多数语言的字符,但依然有些字符不能正确编码,如emoji表情字符等,为此MySQL 5.5引入了utf8mb4字符集。
在MySQL 5.7对utf8mb4进行了大幅优化,并丰富了校验字符集。mb4就是“most byte 4”的意思,专门用来兼容四字节的Unicode,utf8mb4编码是utf8编码的超集,兼容utf8,并且能存储4字节的表情字符。如果原来某些库和表的字符集是utf8,可以直接修改为utf8mb4,不需要做其他转换。
查看数据库的默认字符集:
mysql> show variables like 'character_set_database';
+------------------------+---------+
| Variable_name | Value |
+------------------------+---------+
| character_set_database | utf8mb4 |
+------------------------+---------+
1 row in set, 1 warning (0.00 sec)
字符集校对规则是在字符集内用于字符比较和排序的一套规则,如有的规则区分大小写,有的则无视。校对规则特征如下。
• 两个不同的字符集不能有相同的校对规则。
• 每个字符集有一个默认的校对规则。
• 校对规则存在命名约定,以其相关的字符集名开始,中间包括一个语言名,并且以_ci、_cs或_bin结尾。其中_ci表示大小写不敏感、_cs表示大小写敏感、bin表示直接比较字符的二进制编码,即区分大小写。
查看utf8mb4的字符的校对规则:
mysql> show collation like 'utf8mb4_0900%';
+--------------------+---------+-----+---------+----------+---------+---------------+
| Collation | Charset | Id | Default | Compiled | Sortlen | Pad_attribute |
+--------------------+---------+-----+---------+----------+---------+---------------+
| utf8mb4_0900_ai_ci | utf8mb4 | 255 | Yes | Yes | 0 | NO PAD |
| utf8mb4_0900_as_ci | utf8mb4 | 305 | | Yes | 0 | NO PAD |
| utf8mb4_0900_as_cs | utf8mb4 | 278 | | Yes | 0 | NO PAD |
| utf8mb4_0900_bin | utf8mb4 | 309 | | Yes | 1 | NO PAD |
+--------------------+---------+-----+---------+----------+---------+---------------+
4 rows in set (0.00 sec)