OushuDB入门
文章平均质量分 94
介绍OushuDB特性,以及对HAWQ的改进。
wzy0623
25年的数据库、数据仓库、大数据相关工作。《Hadoop构建数据仓库实践》、《HAWQ数据仓库与数据挖掘实战》、《SQL机器学习库——MADlib技术解析》、《MySQL高可用实践》、《Kettle构建Hadoop ETL》、《Greenplum构建实时数据仓库实践》作者。
展开
-
OushuDB入门(一)——安装篇
OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构,具有MPP的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。作为HAWQ的增强版,OushuDB遵循ANSI-SQL标准,兼容Oracle、Greenplum Database和PostgreSQL,提供PB级数据交互...原创 2018-04-11 17:17:48 · 5577 阅读 · 6 评论 -
OushuDB入门(二)——性能篇
一、OushuDB新版本的性能提升 Oushu Database 2.2版本的执行器基于Apache HAWQ的执行器,而Apache HAWQ的执行器起源于Greenplum Database和PostgreSQL,是一个很成熟的执行器,经过多年的优化和沉淀。而Oushu Database 3.0是一个Major Release,最大的一个亮点功能是完全重新设计的新执行器,性能比2...原创 2018-04-20 16:12:43 · 2039 阅读 · 1 评论 -
OushuDB入门(三)——高可用篇
一、OushuDB高可用简介 OushuDB作为一个传统数据仓库在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、OushuDB HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。 总的来说,OushuDB容错高可用的实现方式包括:硬件冗余master镜像双集群1. 硬件级别的冗余...原创 2018-05-04 15:12:40 · 1078 阅读 · 0 评论 -
OushuDB入门(四)——数仓架构篇
本实验将应用OushuDB数据库,为一个销售订单系统建立数据仓库。通过这个简单的示例,讨论如何利用OushuDB提供的特性,在Hadoop上建立数据仓库系统。本篇说明示例的业务场景、数据仓库架构、实验环境、源和目标库的建立过程、测试数据和日期维度的生成。后面陆续进行初始ETL、定期ETL、调度ETL工作流自动执行、OLAP等实验。目的是演示以OushuDB代替传统数据仓库的具体实现...原创 2018-05-10 16:03:08 · 3037 阅读 · 0 评论 -
OushuDB入门(五)——ETL篇
一、初始装载1. 用sqoop用户建立初始抽取脚本 本示例要用Sqoop将MySQL的数据抽取到Hive ORC外部表,然后利用OushuDB ORC外部表功能将数据装载到内部表中。表1汇总了示例中维度表和事实表用到的源数据表及其抽取模式。源数据表 HDFS目录 对应RDS模式中的表 抽取模式 customer /data/rds/customer customer 整体...原创 2018-05-11 17:17:03 · 1615 阅读 · 1 评论 -
OushuDB入门(六)——任务调度篇
一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。本篇说明如何使用HDP中的Oozie和Falcon服务实现ETL执行自动化。一、Oozie简介 Oozie是一个管理Hadoop...原创 2018-05-22 17:49:48 · 1347 阅读 · 1 评论 -
OushuDB入门(七)——OLAP篇
一、OLAP简介1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据。以此为标准,OLAP作为单独的一类技术同联机事务处理(On-Line Transaction Processing,...原创 2018-05-23 18:08:56 · 1997 阅读 · 0 评论 -
OushuDB入门(八)——AI篇
一、OushuDB AI简介 OushuDB可集成MADlib机器学习库作为其AI组件。现在OushuDB通过MADlib已经支持了大部分机器学习算法,正在研发一个新的组件以支持深度学习。OushuDB对MADlib进行了增强和优化,并在此基础上提出了AI-in-Database的概念。 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多...原创 2018-05-24 13:46:38 · 2010 阅读 · 0 评论