大数据仓库

大数据仓库


背景和总体思路

数据仓库

  • 面向主题,集成的,非易失的,反映历史变化的

传统数据仓库的问题和挑战

如何构建大数据仓库

  • 稳定,可信,丰富,透明

大数据仓库的能力和特征

  • 海量数据存储和处理
  • 多样的api和计算框架
  • 丰富的数据采集通道
  • 多种安全防护措施及监控

大数据仓库架构设计原则

  • 自下而上和自上而下
  • 高容错
  • 数据质量
  • 数据冗余,利用存储换易用

架构及模型设计

架构设计原则

  • 稳定
  • 统一
  • 安全
  • 开放
  • 实用
  • 易用
  • 灵活

设计之路

  • 系统定位-》平台选型-》规划层次-》数据采集-》数据存储处理-》应用设计-》元数据-》运维管理-》前端展现

设计三个维度

  • 功能架构
  • 数据架构
  • 技术架构

模型设计

  • 维度建模
    • 结构简单
    • 便于事实数据分析
    • 适合业务分析报表和BI
  • 实体建模
    • 结构复杂
    • 便于事实数据分析
    • 适合复杂数据内容的深度挖掘

星形模型和雪花模型(利用数据冗余,减少计算成本)

数据处理分层

  • 上下三层(基础数据层-》中间层-》集市层)
  • 流式数据

基础数据层

  • 数据采集
  • 数据清洗
  • 数据归类
  • 数据结构化
  • 数据规范化

数据中间层

  • 围绕实体打通行为
  • 从行为抽象关系
  • 冗余是个好手段

数据集市层

  • 需求场景驱动,垂直构建
  • 集市层深度挖掘数据价值
  • 集市层需要能够快速试错

流式数据处理及加工

  • 需求驱动
  • 包含事实和维度
  • 结构更扁平

搭建大数据仓库

业务流程

  • 数据采集与整合
  • 数据加工、存储与管理
  • 数据应用与消费

结构化数据采集

  • 全量采集
  • 增量采集
  • 实时采集

日志结构化

  • 日志采集到平台前尽量不做结构化
  • 换行符分割条,整条日志存储在一个表字段
  • 通过UDF或MR计算框架实现日志结构化
  • 日志原始结构越规范,解析成本越低
  • 并不一定要完全平铺数据内容,结构化出重要常用字段

非结构化数据特征

  • 语言转文本
  • 图片识别
  • NLP
  • 图片标签
  • video recognition

数据应用

  • 统计服务
  • 分析服务
  • 标签服务
  • 挖掘服务

离线数据共享安全性

  • 多租户数据授权模型

架构设计最佳时间

  • 数据表命名规范
  • 分区表、工作流设计
  • 计算框架应用(日志结构化,同类数据计算过程,减少数据扫描次数)、优化关键路径

大数据治理

几个方面

  • 保障机制(规范)
  • 管理
  • 内容构建

数据管理健康评估体系

  • 数据管理健康分
    • 存储健康(未管理表,废弃表,生命周期过长,同源导入,数据相似或冗余)
    • 计算健康(暴力扫描,数据倾斜,无效节点,依赖缺失,参数不合理,简单加工,相似计算)
  • 重复数据治理(重复源头,计算相似,简单加工,通表同分区,空表,命名相似,特殊规则)
  • 数据质量管理体系
    • 事前:指定每份数据的数据质量监控规则
    • 事中:监控和影响数据生成的过程,不符合质量要求的数据不算产出数据
    • 事后:数据质量情况分析和打分,推动数据质量提升
  • 数据生命周期
    • 热 《32
    • 温 31《 《180
    • 冷 181《 《365
    • 冰 》365
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值