我们连接hive数据库,在表中创建字段时,常常会在注释栏添加注释,但会遇到中文乱码问题。
注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。
不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。
本次案例使用
DataGrip示范,其他软件可以类推
第一步:修改mysql元数据库
我们用到的注释有两种:字段注释和整张表的注释。
找到数据库metastore
在此库中修改2张表的设置
1、COLUMNS_V2
在columns字段中找到COMMENT,右键, 点击modify column
在Collation中选择编码格式 utf8mb4
2、TABLE_PARAMS
同样的操作,修改PARAM_VALUE的编码
数据库中的字符都是通过编码存储的,写入时编码,读取时解码。修改字段编码并不会改变此前数据的编码方式,依然为默认的 latin1,此时读取之前的中文注释会用 utf8 解码,编解码方式不一致,依然乱码。
第二步:设置url连接的编码指定为UTF-8
修改 hive-site.xml
改文件在hive的安装目录下的conf文件夹中
vim hive-site.xml
在javax.jdo.option.ConnectionURL的value末尾添加以下内容
&useUnicode=true&characterEncoding=UTF-8
只要修改了hive-site.xml,就必须重启hiveserver2。