![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
开发经验 # 性能优化
文章平均质量分 54
Long.JK
这个作者很懒,什么都没留下…
展开
-
Flink处理watermark未来时间问题
出现原因通常这种时间超前的数据是由于机器的时间有问题,如机器时间不同/埋点的日志时间错误,然后采集上来的数据使用的那个时间可能就会比当前时间超前了【举例:处理机器时间戳100s,上报的日志写了2000s】网上解决方法1、从kafka读取出来之前先做过滤在 Flink 从 Kafka 中消费数据后就进行 filter部分这种数据(可以获取到时间后和当前时间相比一下,如果超前或者超前多久就把这条数据丢掉,设置的超前 5分钟以上的数据就丢失),就不让进入后面生成水印,这样就不会导致因为水印过大而导致你后原创 2021-12-18 21:52:24 · 1622 阅读 · 1 评论 -
Hive insert select导入报错 HiveException: Hive Runtime Error while processing row{#数据内容}
文章目录运行环境执行脚本错误如下解决过程总结运行环境hadoop 2.7.2电脑虚拟机 hadoop102 hadoop103 hadoop104执行脚本sql="set hive.exec.dynamic.partition =true;set hive.exec.dynamic.partition.mode=nonstrict;use $APP;insert overwrite table t_dwd_edata_day partition(pt_day)select原创 2021-04-12 11:22:31 · 1823 阅读 · 0 评论 -
快速开发代码
文章目录1、Mysql1.列操作2.sql2、Hive1.修改表结构1、Mysql1.列操作增加列ALTER TABLE testalter_tbl ADD i INT AFTER c;修改列属性ALTER TABLE testalter_tbl MODIFY c CHAR(10);修改列默认值ALTER TABLE testalter_tbl ALTER i SET DEFAULT 1000;ALTER TABLE testalter_tbl ALTER i DROP DEFAULT原创 2020-11-08 15:34:10 · 316 阅读 · 0 评论 -
Hive Sql 优化——谓词下推
Sql 优化:谓词下推(PPD)1 定义谓词下推的概念其实出现在sql中,在关联查询时(join,left join ,right join),因为涉及两个大表之间的关联(特别是在hive)造成资源消耗会比较大,因为建议在join之前先将两个表进行过滤(hive 里指的是在map端进行过滤),系统会进行部分优化,但sql需要遵守PPD规则,所谓下推可以理解成优化(只有满足才能进行优化)。一句话说完:不影响结果的情况下,尽量将过滤条件提前执行。(记得小表join大表)2 PPD规则(谓词下推规则)2原创 2020-08-09 20:58:14 · 2613 阅读 · 0 评论