wzy0623的专栏

数据库、数据仓库、大数据

OushuDB入门(八)——AI篇

一、OushuDB AI简介        OushuDB可集成MADlib机器学习库作为其AI组件。现在OushuDB通过MADlib已经支持了大部分机器学习算法,正在研发一个新的组件以支持深度学习。OushuDB对MADlib进行了增强和优化,并在此基础上提出了AI-in-Database的概...

2018-05-24 13:46:38

阅读数 730

评论数 0

OushuDB入门(七)——OLAP篇

一、OLAP简介1. 概念        OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据。以此为标准,O...

2018-05-23 18:08:56

阅读数 916

评论数 0

OushuDB入门(六)——任务调度篇

        一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。本篇说明如何使用HDP中的Oozie和F...

2018-05-22 17:49:48

阅读数 650

评论数 0

OushuDB入门(五)——ETL篇

一、初始装载1. 用sqoop用户建立初始抽取脚本        本示例要用Sqoop将MySQL的数据抽取到Hive ORC外部表,然后利用OushuDB ORC外部表功能将数据装载到内部表中。表1汇总了示例中维度表和事实表用到的源数据表及其抽取模式。源数据表 HDFS目录 对应RDS模式中...

2018-05-11 17:17:03

阅读数 838

评论数 1

OushuDB入门(四)——数仓架构篇

        本实验将应用OushuDB数据库,为一个销售订单系统建立数据仓库。通过这个简单的示例,讨论如何利用OushuDB提供的特性,在Hadoop上建立数据仓库系统。本篇说明示例的业务场景、数据仓库架构、实验环境、源和目标库的建立过程、测试数据和日期维度的生成。后面陆续进行初始ETL、定期...

2018-05-10 16:03:08

阅读数 1736

评论数 0

OushuDB入门(三)——高可用篇

一、OushuDB高可用简介        OushuDB作为一个传统数据仓库在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、OushuDB HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。       ...

2018-05-04 15:12:40

阅读数 361

评论数 0

提示
确定要删除当前文章?
取消 删除