自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于Lambda架构的实时电商数仓建设经验分享

在我们的业务场景中,商品维度是千万级别,用户维度是亿级别,经过测试,在实时点击流中,由于数据流量比较大,关联用户信息会出现查询超时导致关联不上的场景,因为我们砍掉了实时数据的用户维度,而选择在ClickHouse进行结果数据查询时再利用Local Join的优势来关联用户维度。在我接手之前,公司数仓按照不同的业务模块划分不同的数据集市,电商业务有专门的电商集市,但是内部数据加工逻辑比较复杂、没有明确的数据分层和清晰的数据处理逻辑,基本上是面向需求开发,重复逻辑比较多,数据一致性差。

2023-09-09 12:06:08 534

原创 全面介绍开源数据库Apache Doris的第一本书,限时五折

这是一本从基本操作、架构设计、进阶使用、运维管理、拓展应用、项目实战等多个维度全面讲解Doris的著作,是资深数据仓库专家兼Doris开源项目贡献者实战经验的总结,得到了Apache Doris PMC主席、Select DB创始人兼CEO以及多位Apache Doris PMC的强烈推荐。基础篇(第1-4章):首先介绍了Doris的功能特点、架构设计、应用场景,然后讲解了Doris的编译、安装、部署、建表等基本操作,以及Doris的数据对象和数据模型。--张家峰 Apache Doris PMC。

2023-09-09 11:53:06 205

原创 今天问了ChatGPT 5个Greenplum最让我头疼的问题

因此,建议在默认情况下将optimizer参数设置为on,但如果出现代价估算器的估算结果与实际情况不符的情况,可以考虑将其设置为off,或者使用其他的查询优化技术,如手动设置查询执行计划等。此外,Greenplum中的内存管理也比较复杂,有时候内存不足的错误可能是由于一些其他的原因导致的。Greenplum是一个基于共享存储的分布式数据库系统,其查询优化器采用的是基于代价的优化器(Cost-Based Optimizer),它会根据查询代价估算的结果来选择最优的查询执行计划。

2023-07-25 09:20:02 212

原创 字段级血缘分析就是一个伪需求

但是字段只是表的一个部分,而数据仓库的表不一定都有业务主键,并且数据仓库的数据流动是逐层聚合的,越往上的逻辑越抽象,越抽象越难以溯源。作为管理者,看到了表级血缘,肯定是不满意的,一个简单的逻辑包含了十几张表,根本看不出来里面的逻辑来,能不能打开黑箱,进一步透视一下?但是领导是不会接受的,我当领导就是为了不看代码的,为了让开发过程可视化的,只有可视化的东西才能满足管理要求。表级数据血缘可以大概知道,一个目标表的数据会受到哪些上游表的影响,这个影响有可能是直接的,有可能是间接的,也有可能毫无影响。

2023-07-24 23:23:02 333

原创 今天聊聊数据湖和“三剑客”,吐槽一下数据湖被夸大的增量功能

以零售业务为例,假设有订单信息表A、订单商品表B,我们在ODS层可以分别取到两个表的增量数据,如果要得到DWD层的增量,需要用同时读取订单信息表和订单商品表中变动的订单并进行关联,可以是A表的增量数据关联B表的增量union all历史全量 + B表的增量数据关联A表的增量union all历史全量,这样可以计算出DWD层的增量。但是,这些其实都是低价值密度的数据,真没有太多分析的必要性。但是,真是的情况是,数据湖也只能做到ODS层的增量或者最多DWD层的增量,有更复杂逻辑的情况下,数据湖也是无能为力的。

2023-07-24 23:19:02 52

原创 《Doris实时数仓实战》出版了~~~

据公开资料显示,Apache Doris在美团、小米、京东、百度、网易、字节跳动、快手、腾讯、华为、新浪、知乎、360等大型互联网企业有深入的应用和稳定的生产运行,全球范围内的企业用户规模已超过1000家。同时,飞轮数据科技(SelectDB)提供了基于开源Doris的云原生实时数据仓库SelectDB Cloud,百度智能云、腾讯云、阿里云、火山引擎等知名云厂商也提供了基于开源Doris的云上托管服务。本从基本操作、架构设计、进阶使用、运维管理、拓展应用、项目实战等多个维度全面讲解Doris的著作,

2023-07-23 10:20:00 589

原创 Doris数仓的4大特点,一篇讲明白

一个查询在MPP集群中执行时,会拆成一个树状的执行树,这棵树的执行由Coordinator来协调执行,树的叶子节点也叫计划片断(PlanFragment),每一个PlanFragment分配给一个BE节点的查询执行器来执行,这就是查询执行器模块的作用。而Partition级别的缓存会智能地将SQL结果中不同分区的结果数据缓存起来,之后的查询,可以利用已缓存分区的数据加上新分区实时查询的数据得到最终的结果,从而降低重复数据的实时查询需求,减少对系统资源的消耗。如果只部署一个FE,则FE默认就是Leader。

2023-07-22 10:23:46 254

原创 既快又好还省,实时数仓新选择——Doris

这种加工虽然可以做到数据的秒级延迟,但是牺牲了数据的准确性和数据分析维度,高度聚合的数据虽然可以满足一些场景的使用,但是无法进一步分析和深挖数据价值。但是随着业务的发展和技术的成熟,我们不再满足于今天看昨天的数据,而是想要今天就看到今天的数据,于是就有了实时数仓的概念。它的目标是将数据的捕获、处理和分析的速度提高到接近实时的水平,以支持实时决策和洞察。架构最大的优点是仅需一套代码,可以同时完成流式数据加工和批量数据加工,最大的问题是批量数据加工的能力会低于离线批处理,因此历时数据的回溯时长存在不确定性。

2023-07-22 09:34:10 191

原创 从数据仓库到数据中台,终于有人说清楚了

作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下内容为《高效使用Greenplum:入门、进阶和数据中台》删减内容。欢迎大家关注我的公众号“数据中台研习社”或者购买本书。数据仓库简史提到数据中台,我们不得不从它的前辈数据仓库说起。数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员提出了商业数据仓库的概念。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,

2022-05-16 22:25:21 416

原创 搭了数据中台怎么用?AI+BI 让数据产生价值

作者简介:王春波,著有《高效使用Greenplum:入门、进阶和数据中台》,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下为《高效使用Greenplum:入门、进阶和数据中台》删减内容。欢迎大家关注我的公众号,或者购买我的图书。         数据中台主要应用方向有传统BI、敏捷BI、可视化大屏、AI等四个方向。传统BI      &a

2022-05-12 20:55:49 365

原创 搞大数据,你居然不知道什么是调度平台

作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下内容摘自《高效使用Greenplum:入门、进阶和数据中台》第14章。京东购买链接:https://search.jd.com/Search?keyword=%E9%AB%98%E6%95%88%E4%BD%BF%E7%94%A8Greenplum调度平台是指可以串联ETL任务并按照指定的依赖和顺序进行自动执行的工具。调度平台一般用Java语言开发,平台实现难

2022-05-08 11:14:31 738

原创 为什么要搭建数据中台?

作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下内容摘自《高效使用Greenplum:入门、进阶和数据中台》第14章。京东购买链接:https://search.jd.com/Search?keyword=%E9%AB%98%E6%95%88%E4%BD%BF%E7%94%A8Greenplum谈到数据中台,我们不得不从企业信息化和企业数字化说起。企业的各种经营活动,本质上是信息的传递过程,在信息交换的基础

2022-05-05 21:13:52 208

原创 数据中台怎么选型?终于有人讲明白了

作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下内容摘自《高效使用Greenplum:入门、进阶和数据中台》第14章。京东购买链接:https://search.jd.com/Search?keyword=%E9%AB%98%E6%95%88%E4%BD%BF%E7%94%A8Greenplum导读:数据中台选型主要包括数据仓库选型、调度平台选型、BI工具选型3个方面,好的工具可以大幅提升开发效率,降低运维

2022-05-05 21:10:10 674

原创 Hive升级Bug太多影响睡眠?换这款开源MPP架构数据库试试

大数据解决方案中,在Hadoop分布式架构之外,还有一种流行的并行处理架构MPP。

2022-05-04 09:31:26 199

原创 数仓实战|一文看懂数据中台接口数据采集

作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售数仓项目实施专家。以下内容摘自《高效使用Greenplum:入门、进阶和数据中台》第14章。京东购买链接:https://search.jd.com/Search?keyword=%E9%AB%98%E6%95%88%E4%BD%BF%E7%94%A8Greenplum要实现数据中台,一个最基本的要求就是同步交易系统接口数据。实现接口数据同步的方式主要有3种:全量同步、增量同步、流

2022-05-04 09:18:05 1885

原创 特步集团基于 Apache Doris 的零售数据仓库项目实践

特步,飞一般的感觉

2022-04-28 08:54:24 291

原创 Apache Doirs单机版极简安装过程,快速搭建练手环境

最近搞了一台虚拟机,准备自己玩一下Apache Doirs。先一张图镇楼。不知道什么是doris的,自行百度。欢迎关注公众号《数据中台研习社》。 首先要解决的就是软件包的问题。从官网跳到github一看,所有的release都是源码包。想挑战源码编译的大神可以尝试自行编译。 对此,官方文档也很友好的提供了编译方案,通过预设好的docker环境来编译,也就一句命令“sh build.sh”。但是我看过很多人在微信群里反馈编译失败。 无docker环...

2022-01-19 23:41:48 2139

原创 Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP hive.metastore.schema.verification false启动spark-sql或者创建相关对象,都会报错,错误如下:at java.lang.reflect.Constructor.newInstance(Constructor.java:423)at org.datanucle...

2018-12-19 09:43:58 4143 2

Kyligence.ODBC.3.1.9.1003.Linux.x64.tar.gz

Kyligence官方驱动包Kyligence.ODBC.3.1.9.1003.Linux.x64.tar.gz

2020-07-24

2018广东互联网大会

2018广东互联网大会-5G使能万物互联的智能社会

2019-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除