MySQL 异常 UTF-8 字符的处理

最新推荐文章于 2024-05-14 07:57:41 发布

张吉Jerry

最新推荐文章于 2024-05-14 07:57:41 发布

阅读量2.7k

点赞数

分类专栏：大数据文章标签： mysql utf-8 etl hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjerryj/article/details/77466549

版权

大数据专栏收录该内容

26 篇文章 2 订阅

订阅专栏

ETL流程中，我们会将Hive中的数据导入MySQL——先用Hive命令行将数据保存为文本文件，然后用MySQL的LOAD DATA语句进行加载。最近有一张表在加载到MySQL时会报以下错误：

Incorrect string value: '\xF0\x9D\x8C\x86' for column ...

经查，这个字段中保存的是用户聊天记录，因此会有一些表情符号。这些符号在UTF-8编码下需要使用4个字节来记录，而MySQL中的utf8编码只支持3个字节，因此无法导入。

根据UTF-8的编码规范，3个字节支持的Unicode字符范围是U+0000–U+FFFF，因此可以在Hive中对数据做一下清洗：

SELECT REGEXP_REPLACE(content, '[^\\u0000-\\uFFFF]', '') FROM ...

这样就能排除那些需要使用3个以上字节来记录的字符了，从而成功导入MySQL。

以下是一些详细说明和参考资料。

Unicode字符集和UTF编码

Unicode字符集是一种将全球所有文字都囊括在内的字符集，从而实现跨语言、跨平台的文字信息交换。它由基本多语平面（BMP）和多个扩展平面（non-BMP）组成。前者的编码范围是U+0000-U+FFFF，包括了绝大多数现代语言文字，因此最为常用。

UTF则是一种编码格式，负责将Unicode字符对应的编号转换为计算机可以识别的二进制数据，进行保存和读取。

比如，磁盘上记录了以下二进制数据：

1101000 1100101 1101100 1101100 1101111

读取它的程序知道这是以UTF-8编码保存的字符串，因此将其解析为以下编号：

104 101 108 108 111

又因为UTF-8编码对应的字符集是Unicode，所以上面这五个编号对应的字符便是“hello”。

很多人会将Unicode和UTF混淆，但两者并不具可比性，它们完成的功能是不同的。

UTF-8编码

UTF编码家族也有很多成员，其中UTF-8最为常用。它是一种变长的编码格式，对于ASCII码中的字符使用1个字节进行编码，对于中文等则使用3个字节。这样做的优点是在存储西方语言文字时不会造成空间浪费，不像UTF-16和UTF-32，分别使用两个字节和四个字节对所有字符进行编码。

UTF-8编码的字节数上限并不是3个。对于U+0000-U+FFFF范围内的字符，使用3个字节可以表示完全；对于non-BMP中的字符，则会使用4-6个字节来表示。同样，UTF-16编码也会使用四个字节来表示non-BMP中的字符。

MySQL的UTF-8编码

根据MySQL的官方文档，它的UTF-8编码支持是不完全的，最多使用3个字符，这也是导入数据时报错的原因。

MySQL5.5开始支持utf8mb4编码，至多使用4个字节，因此能包含到non-BMP字符。只是我们的MySQL版本仍是5.1，因此选择丢弃这些字符。

参考资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MySQL 异常 UTF-8 字符的处理

ETL流程中，我们会将Hive中的数据导入MySQL——先用Hive命令行将数据保存为文本文件，然后用MySQL的LOAD DATA语句进行加载。最近有一张表在加载到MySQL时会报以下错误：Incorrect string value: '\xF0\x9D\x8C\x86' for column ...经查，这个字段中保存的是用户聊天记录，因此会有一些表情符号。
复制链接

扫一扫

专栏目录

张吉Jerry CSDN认证博客专家 CSDN认证企业博客

码龄19年

70: 原创

6万+: 周排名

6万+: 总排名

40万+: 访问

: 等级

3444: 积分

217: 粉丝

137: 获赞

22: 评论

435: 收藏

私信

关注

热门文章

分类专栏

大数据 26篇
编程 21篇
摘译 2篇
PHP 27篇
.NET 5篇

最新评论

Java 空指针异常的若干解决方案
XMcoder: 空指针判空用这种Optional.ofNullable方法也很好https://www.bmabk.com/index.php/post/4830.html
Java 空指针异常的若干解决方案
Adam`南帝·梁: 谢谢
Spark Streaming 中如何实现 Exactly-Once 语义
Icedzzz: 总结的太好了！
使用 Binlog 和 Canal 从 MySQL 抽取数据
大石_001: 使用canal+kafka+canal-adapter但是出现丢数据的情况该如何解决呢
使用 Python 和 Thrift 连接 HBase
微电子学与固体电子学-俞驰: [code=csharp] (Python3.6) appleyuchi@Desktop:~$ pip install hbase Looking in indexes: https://mirrors.aliyun.com/pypi/simple/ ERROR: Could not find a version that satisfies the requirement hbase (from versions: none) ERROR: No matching distribution found for hbase [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。