wzy0623的专栏

数据库、数据仓库、大数据

排序:
默认
按更新时间
按访问量

HAWQ技术解析(十六) —— 运维监控

与任何IT系统一样,为了保证HAWQ集群的高可用和高性能,需要进行一系列监控与维护活动。本篇讨论HAWQ推荐的运维与监控活动。一、推荐的监控与维护任务        表1至表5是HAWQ向系统管理员推荐定期执行的活动,包括系统与数据库监控、数据与数据库的维护、补丁与升级等,目的是要确认系统的所有组...

2017-04-27 16:54:56

阅读数:2104

评论数:0

HAWQ技术解析(十五) —— 备份恢复

一、为什么还需要备份        HAWQ作为一个数据库管理系统,备份与恢复是其必备功能之一。HAWQ的用户数据存储在HDFS上,系统表存储在master节点主机本地。HDFS上的每个数据块缺省自带三份副本,而且一个数据块的三份副本不会存储在同一个DataNode上,因此一个DataNode节点...

2017-04-25 13:51:31

阅读数:2074

评论数:0

HAWQ技术解析(十四) —— 高可用性

一、HAWQ高可用简介        HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。        总的来说,HAWQ容...

2017-04-24 17:52:28

阅读数:3398

评论数:0

HAWQ技术解析(十三) —— 资源管理

一、HAWQ如何管理资源        HAWQ使用多种机制管理CPU、内存、I/O、文件句柄等系统资源,包括全局资源管理、资源队列、强制资源使用限额等。1. 全局资源管理        Hadoop通常使用YARN全局管理资源。YARN是一个通用的资源管理框架,为MapReduce作业或其它配置...

2017-04-21 16:09:45

阅读数:3388

评论数:3

HAWQ技术解析(十二) —— 查询优化

即便对SELECT等数据库查询语句已经很熟悉了,但HAWQ里的查询有其自己的特点,还是需要研究一下。一、HAWQ的查询处理流程        理解HAWQ的查询处理过程有助于写出更加优化的查询。与任何其它数据库管理系统类似,HAWQ也有如下的查询执行步骤:用户使用客户端应用(如psql)连接到HA...

2017-04-14 10:41:50

阅读数:4116

评论数:2

HAWQ技术解析(十一) —— 数据管理

一、基本操作1. INSERT        在常用的增删改查数据库操作中,HAWQ仅支持INSERT和SELECT两种,不支持UPDATE和DELETE,这主要是因为HDFS是一个只能追加数据而不能更新的文件系统。SELECT语句最熟悉不过,它应该是数据库中最常用的语句了,在下一篇“查询优化”时...

2017-04-06 14:39:33

阅读数:5072

评论数:6

HAWQ技术解析(七) —— 存储分布

在HAWQ中创建一个表时,应该预先对数据如何分布、表的存储选项、数据导入导出方式和其它HAWQ特性做出选择,这些都将对数据库性能有极大影响。理解有效选项 的含义以及如何在数据库中使用它们,将有助于做出正确的选择。一、数据存储模型        create table的with子句用于设置表的存储...

2017-04-01 16:53:14

阅读数:6279

评论数:2

HAWQ技术解析(十) —— 过程语言

HAWQ支持用户自定义函数(user-defined functions,UDF),还支持给HAWQ内部的函数起别名。编写UDF的语言可以是SQL、C、Java、Perl、Python、R和pgSQL。其中除SQL和C是HAWQ的内建语言,其它语言通常被称为过程语言(PLs),支持过程语言编程是对...

2017-03-24 19:48:57

阅读数:2483

评论数:1

HAWQ技术解析(九) —— 外部数据

HAWQ不但可以读写自身系统中的表,而且能够访问HDFS、Hive、HBase等外部系统的数据。这是通过一个名为PXF的扩展框架实现的。大部分的外部数据是以HAWQ外部表的形式进行访问的,但对于Hive,除外部表方式,PXF还能够与HCatalog整合直接查询Hive表。PXF内建多个连接器,用户...

2017-03-23 11:03:51

阅读数:3868

评论数:3

HAWQ技术解析(八) —— 大表分区

一、HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表。这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面“外部数据”篇讨论。在数据仓库应用中,事实表通常有非常多的记录,分区可以将这样的大表在逻辑上分为小的、更易管理的数据片段。HAWQ的优化器支持分区消除以提高...

2017-03-15 14:34:25

阅读数:4009

评论数:0

HAWQ技术解析(六) —— 定义对象

HAWQ本质上是一个数据库系统,所以这里所说的对象指的是数据库对象。和其它关系数据库类似,HAWQ中有数据库、表空间、表、视图、自定义数据类型、自定义函数、序列等对象。本篇将简述这些对象的创建与管理。对HAWQ中表的存储方式与分布策略等特性的选择,会对数据库性能产生极大的影响,同时这也是一个复杂的...

2017-03-07 18:31:39

阅读数:2707

评论数:0

HAWQ技术解析(五) —— 连接管理

服务器启动后,还要经过一系列配置,才能被客户端程序所连接。本篇说明如何配置客户端身份认证,HAWQ的权限管理机制,HAWQ最常用的命令行客户端工具psql及与mysql命令行常用命令类比,最后还将列举一些客户端连接HAWQ数据库的常见问题排查。一、配置客户端身份认证        上一篇曾经提到,...

2017-03-03 17:46:49

阅读数:4664

评论数:4

HAWQ技术解析(四) —— 启动停止

前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成这些操作,需要适当的环境设置。下面就HAWQ管理的一些基础概念、操作环境、启动停止及其推荐的操作进...

2017-03-02 17:54:25

阅读数:4083

评论数:0

HAWQ技术解析(三) —— 基本架构

HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能,Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。一、HAWQ的...

2017-02-17 17:19:35

阅读数:4119

评论数:0

HAWQ技术解析(二) —— 安装部署

一、安装规划1. 选择安装介质        HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为http://apache.org/dyn/closer.cgi/incubator/hawq/2.0.0.0-incubating/ap...

2017-02-15 17:56:06

阅读数:7870

评论数:16

HAWQ技术解析(一) —— HAWQ简介

一、SQL on Hadoop        过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途...

2017-02-13 13:55:03

阅读数:14658

评论数:0

将MySQL去重操作优化到极致之三弹连发(三):用rocksdb替代innodb

前面已经建立了索引,优化了SQL语句,并将单线程变为多线程并行执行,去重时间由最初的35秒优化为3.5秒,是不是就到此为止呢?吴老师又使用了rocksdb存储引擎替代innodb的方法。这里有必要交代一下命题的背景。这道MySQL数据库优化的题目出自是阿里内部的竞赛题,当然我是听吴老师口述的,真正...

2017-01-12 15:50:50

阅读数:3888

评论数:2

将MySQL去重操作优化到极致之三弹连发(二):多线程并行执行

上一篇已经将单条查重语句调整到最优,但该语句是以单线程方式执行。能否利用多处理器,让去重操作多线程并行执行,从而进一步提高速度呢?比如我的实验环境是4处理器,如果使用4个线程同时执行查重sql,理论上应该接近4倍的性能提升。一、数据分片        我们生成测试数据时,created_time采...

2017-01-12 15:35:21

阅读数:3293

评论数:0

将MySQL去重操作优化到极致之三弹连发(一):巧用索引与变量

元旦假期收到阿里吴老师来电,被告知已将MySQL查重SQL优化到极致:100万原始数据,其中50万重复,把去重后的50万数据写入目标表只需要9秒钟。这是一个惊人的数字,要知道仅是insert 50万条记录也需要些时间的。于是来了兴趣,自己实验、思考、总结做了一遍。一、问题提出        源表t...

2017-01-12 15:12:27

阅读数:3128

评论数:6

年年岁岁花相似,岁岁年年人不同

2016年就这么过去了,回头望一望这一年所经历的的种种平凡琐事,总想说点什么。在国企工作的三年半时间里,每年这个时候都要写工作总结,并且要当着单位所有人的面说一遍。口才好或表现欲强的同事在这个场合通常会脱稿演说,或口若悬河,或语出惊人,虽然有哗众取宠之嫌疑,但足令我等文采口才双输之辈羡慕之至。此一...

2016-12-30 05:25:22

阅读数:1259

评论数:3

提示
确定要删除当前文章?
取消 删除
关闭
关闭