hive元数据修改未生效

最新推荐文章于 2024-06-12 09:49:51 发布

凭嗓门抢地主

最新推荐文章于 2024-06-12 09:49:51 发布

阅读量851

点赞数

分类专栏：大数据文章标签： hive presto 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45450027/article/details/117428431

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、问题及分析

我将一个tinyint的字段通过hive客户端修改为smallint类型，并使用spark插入数据。后续通过presto查询数据时候，报错：

java.io.IOException: Malformed ORC file. Can not read SQL type tinyint from ORC stream .origin of type SHORT

说是不能读取tinyint的类型，显然，它没有认出我最新的数据类型，那么基本上认为它拿到的是旧的元数据。思路：

1.重新建表，重新入数。

2.让它拿到正确的元数据。

第一个代价太大，并且不是最优的合理思路（经过验证，即便是重新入，也重建分区就行，不用删表建表）。

二、查找方案

经过一些列的百度，最终还是去了官网，发现这么一段文字：

经过尝试，发现了

"MSCK [REPAIR] TABLE table_name"

这个命令。

但是！：我在找到这个方法前，是先删除了分区，重入了该分区的数据解决的，我发现了有的分区能查出结果——修改字段类型之后插入的分区是没问题的，说明识别文件格式的单位可以精细到分区而不是整个数据表。

下次有机会验证一下msck吧，虽然这次没有用到，但是这个命令让我知道了，是可以人为同步元数据的，这很有用！！！

凭嗓门抢地主

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
hive元数据修改未生效

一、问题及分析我将一个tinyint的字段通过hive客户端修改为smallint类型。后续通过presto查询数据时候，报错：java.io.IOException: Malformed ORC file. Can not read SQL type tinyint from ORC stream .origin of type SHORT...
复制链接

扫一扫

专栏目录

凭嗓门抢地主 CSDN认证博客专家 CSDN认证企业博客

码龄5年

10: 原创

21万+: 周排名

90万+: 总排名

1万+: 访问

: 等级

153: 积分

2: 粉丝

12: 获赞

22: 评论

46: 收藏

私信

关注

热门文章

分类专栏

数据仓库 1篇
spark 1篇
大数据 5篇
大数据工具 4篇
任务调度 4篇
python 1篇
flink 1篇
flume 1篇
pycharm 1篇
git 1篇
linux 1篇

最新评论

flink1.12.3+python3.7+pyflink实时消费kafka
凭嗓门抢地主: 很久没用flink了，暂时无法帮助你了
flink1.12.3+python3.7+pyflink实时消费kafka
lzj173776: set_value_only_deserializer(SimpleStringSchema())兄弟你知道如何自定义反序列化吗？因为我接受的kafka数据类型是字节，字符串会出现乱码，因此SimpleStringSchema()就不能用啦！如果兄弟会的话可以加我QQ吗？ 1124533061
Airflow2.0+celery+redis任务调度部署及使用
凭嗓门抢地主: 感谢大佬提供资料，airflow在使用中确实存在一些问题，我们现在已经迁移到dolphinscheduler了，大佬的工具框架有机会我一定认真参看~
Airflow2.0+celery+redis任务调度部署及使用
北风之神c: 写得赞，博主用心了，但主要还是celery太难了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字，所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图， 1) 整个项目目录结构,celery的目录结构和任务函数位置，有很大影响 2) @task入参 ,用户有没有主动设置装饰器的入参 name,设置了和没设置有很大不同，建议主动设置这个名字对函数名字和所处位置依赖减小 3) celery的配置，task_queues(在3.xx叫 CELERY_QUEUES )和task_routes (在3.xx叫 task_routes) 4) celery的配置 include （在3.xx叫 CELERY_INCLUDE）或者 imports (3.xx CELERY_IMPORTS) 或者 app.autodiscover_tasks的入参 5) cmd命令行启动参数 --queues= 的值 6) 用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 https://function-scheduling-distributed-framework.readthedocs.io/zh_CN/latest/index.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery，任何方面都是有过之而无不及。
Airflow2.0.0问题及解决（不定期持续更新）
凭嗓门抢地主: 感谢支持，互相交流~

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。