今天在部署爬虫的时候,发现部署时会出现以下错误:
java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x94' for column
这是字符集不支持的异常。
数据库使用的是utf8编码,utf8最大的一个特点,就是它是一种变长的编码方式,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。其中Emoji表情和一些生僻字是4个字节,而MySql的utf8编码最多3个字节,所以导致了数据插不进去报错。
解决办法是将数据库的编码从utf8修改为utf8mb4.
解决办法:修改mysql的配置文件/etc/my.cnf, 添加如下内容:
[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4
[mysqld]
character-set-client-handshake=FALSE
character-set-server=utf8mb4
collation-server=utf8mb4_unicode_ci
init_connect='SET NAMES utf8mb4'
通过以下命令来查看编码:
SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE 'collation%';
最重要的一点是:java程序中的连接数据库url中characterEncoding可以去掉,因为数据传输不用规定编码了
db_url=jdbc:mysql://39.98.119.124:3306/patent?useUnicode=true&autoReconnect=true