数仓
文章平均质量分 90
数据仓库建模,数据仓库
Keven He
一个热爱技术的大数据开发者
展开
-
Hive实战之视频网站数据分析
需求描述:统计影音视频网站的常规指标,各种TopN指标:统计视频观看数Top10统计视频类别热度Top10统计视频观看数Top20所属类别以及类别包含的Top20的视频个数统计视频观看数Top50所关联视频的所属类别Rank统计每个类别中的视频热度Top10统计每个类别中视频流量Top10统计上传视频最多的用户Top10以及他们上传的观看次数在前20视频统计每个类别视频观看数Top10项目数据表构成视频表字段备注详细描述video id视频唯一id原创 2022-05-15 17:55:18 · 2032 阅读 · 0 评论 -
数据仓库构建与分层
数据仓库构建与分层为什么构建数据仓库在日益激烈的商业竞争中,企业迫切需要更加准确的战略决策信息。在以往的关系型数据库系统中,企业拥有海量的数据,这些数据对于企业的运作是非常有用的,但是对于商业战略决策和目标制定的作用甚微,不是战略决策要使用的信息。关系型数据库很难将这些数据转换成企业真正需要的决策信息,原因如下:一个企业中可能有很多管理系统平台,企业数据分散在多种互不兼容的系统中。例如:一个银行中的系统分为:核心系统,信贷系统,企业贷款系统,客户关系系统,助学贷款系统,理财系统、反洗钱系统等,这些原创 2022-04-19 17:32:34 · 1077 阅读 · 0 评论 -
数据仓库架构
1. 大数据架构演变(数仓架构演变)1.1 传统离线大数据架构21世纪初随着互联网时代的到来,数据量暴增,大数据时代到来。Hadoop生态群及衍生技术慢慢走向“舞台”,Hadoop是以HDFS为核心存储,以MapReduce(简称MR)为基本计算模型的批量数据处理基础设施,围绕HDFS和MR,产生了一系列的组件,不断完善整个大数据平台的数据处理能力,例如面向KV操作的HBase、面向SQL分析的Hive、面向工作流的PIG等。以Hadoop为核心的数据存储及数据处理技术逐渐成为数据处理中的“中流砥柱”,原创 2022-04-19 17:24:35 · 3209 阅读 · 0 评论 -
从了解数仓开始
我们每天的生活,无处不在的数据,我们无时不刻的在与数据打交道,同时也产生数据,慢慢人们意识到了数据的价值,在我们的生活中,我们进行网购时,在找自己想要购买的物品时候,发现有各种类似商品推荐,这就是大数据的魔力,在这背后,企业所搜集的数据发挥着巨大的价值。那么数据的存储应该怎么解决呢,可能对于数据库大家并不陌生,但是今天我们开始了解的是数据仓库,它与数据库有着异同,接下来我们来看看数据仓库到底是什么吧。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合-来自百度的解释,将..原创 2020-12-26 22:45:28 · 608 阅读 · 1 评论 -
各大互联网公司实时数仓实践
各大公司实时数仓实践1.1 网易实时数仓实践此架构是基于Kudu的实时数据数仓,通过Data Stream自己写的数据采集工具来采集日志数据写入Kafka,使用NDC(类似CDC)服务可以将binlog数据推送到Kafka,通过Flink读取Kafka数据结果写入Kudu,基于Kudu构建实时数仓好处就是延迟低(毫秒/秒级);支持upsert;支持水平扩展。但是也存在一些问题,例如:突然数据量增多,基于内存会有很大的Compaction操作,会造成数据服务不可用;数据孤岛问题,Kudu很难与HDFS中原创 2022-04-19 17:18:23 · 2300 阅读 · 0 评论