大数据
文章平均质量分 89
疯码牛Pro
大数据、AI技术拓荒
展开
-
如果你不懂指标体系,我强烈建议你看完这篇文章
指标体系,虽然对外透出的是各种指标、报表及看板,但其内在的核心,是对于一个行业深层次的认知,一套行业完整分析方法,这些都是在历年的积累中打磨出来的,在业务发展过程中探索出来的。久而久之,这些分析方法沉淀之后,形成一套完整的行业指标体系。因此,整个行业指标体系的建设与完善,离不开扎根在该行业数据工作者前赴后继、日积月累的奋斗。原创 2022-05-08 11:46:25 · 465 阅读 · 0 评论 -
Flink不止于计算,存算一体才是未来
未来,利用 Flink CDC、Flink SQL、Flink Dynamic Table 就可以构建一套完整的流式数仓,实现实时离线一体化及对应计算存储一体化的体验。那便是大数据技术,flink技术发展的又一个精进高度。原创 2022-03-25 12:30:11 · 2229 阅读 · 0 评论 -
大数据时代,数据湖技术Apache Iceberg的前世今生
一种技术,从出现到广泛的使用,有着他与生俱来的天性,同样有后天物竞天择适者生存的妥协。当下,数据湖技术天下三分,各有侧重,但它来自哪里,要去往何处,优势在哪里,需要补强的又是什么?原创 2022-03-21 09:01:29 · 360 阅读 · 0 评论 -
数据湖三剑客,大数据时代的新范式?
大数据技术发展到现阶段,逐渐出现了诸多的掣肘,不断有新的问题出现,仅仅就存储方面来讲,与数据库这样高度优化的技术相比,大数据技术的抽象和实现还是太原始和初级。这个时候,革命性的技术数据湖应运而生。原创 2022-03-03 20:03:19 · 124 阅读 · 0 评论 -
CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA
Data truncation: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'MESSAGE' at row 1cloudera server 端日志:Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'VALUE' at row 1 ...原创 2021-07-07 14:07:39 · 386 阅读 · 0 评论 -
大数据框架exactly-once底层实现原理,看这篇文章就够了
一、大数据框架三种语义在分布式系统中,如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中,broker 可能会 crash,在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此类故障所采取的提交策略类型,有如下三种(以kafka为例):at-least-once:如果 producer 收到来自 Kafka broker 的确认(ack)或者 acks = all,则表示该消息已原创 2021-04-09 00:16:35 · 208 阅读 · 0 评论