DataWarehouse
About DataWarehouse
ddttoop
数据仓库、Hadoop生态、数据分析、BI
展开
-
Mysql数据仓库-Infobright
0. 概述infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算。1infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到...原创 2020-04-28 15:14:14 · 1099 阅读 · 0 评论 -
第一份工作中常使用软件工具归纳整理(20200421)
工作中常使用软件工具归纳整理辅助工具:Everthing :快速定位文件目录。FastStone Capture :截网页长图。OneNote 2016数据库客户端:PL/SQL :简单快捷;Toad for Oracle :功能居多DBeaver :开源多选择。ETL工具:PDI(Kettle):开源ETL工具。(Spoon7.1&Spoon9.0)报表...原创 2020-04-21 18:03:28 · 265 阅读 · 0 评论 -
About EDW时间维度表的建立参考(DWD_CALENDAR)
0. 维度表1. 创建表-- Create tablecreate table DWD_CALENDAR( site VARCHAR2(40), factory VARCHAR2(40), period_date DATE, period VARCHAR2(5), shif...原创 2020-04-16 18:08:00 · 387 阅读 · 0 评论 -
About Oracle SCN序列号相关
0、工作中用到SCN分析数据异常原因现象OLTP系统中业务数据在业务定义时间字段之后写入库中,当OLAP系统在按照业务时间做增量抽取时出现数据未取到异常:SELECT to_char(scn_to_timestamp(ora_rowscn),'yyyy/mm/dd hh24:mi:ss') AS 数据写入时间, to_char(t.trans_time,'yyyy/mm/dd hh24...原创 2020-04-13 11:41:28 · 161 阅读 · 0 评论 -
大数据之CDH5.8.3集成安装Apache Kylin与探索使用
博文目录0. Kylin概览(官方)1. Kylin特性3. Kylin生态圈3. Kylin集成前环境准备4. 安装部署4.1 下载Kylin4.2 部署Kylin4.3 启动Kylin5. 实例测试0. Kylin概览(官方)Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最...原创 2020-04-09 16:09:08 · 392 阅读 · 0 评论 -
自动化调度工具Jenkins从安装配置到基本使用
博文目录0. Jenkins1. 功能特点2. 下载启动2.1 下载2.2 启动2.2.1 启动部署方式一2.2.2 启动部署方式二2.2.3 Jenkins服务自动开启和关闭脚本3. 服务配置0. JenkinsJenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。11. 功能特点构建...原创 2020-04-02 11:53:36 · 1298 阅读 · 0 评论 -
EDW 模型设计概念
EDW模型设计概念1、EDW体系架构2、为何需要企业模型?数据集市之间数据一致性;包含全部历史的核心数据;一致的事实表和维度等。3、 EDW数据模型在项目实施中的作用4、模型总体结构-EM & DataMarts5、EDW具体实施流程6、模型设计策略(当前略,后续补)...原创 2020-03-27 18:04:58 · 2059 阅读 · 1 评论 -
Oracle 锁表相关查询与处理
博文目录Oracle 锁表相关查询与处理以下几个为相关表查看被锁的表查看那个用户那个进程照成死锁查看连接的进程查出锁定表的sid, serial#,os_user_name, machine_name, terminal,锁的type,mode杀掉进程 sid,serial#锁表,根据用户名和表名查出锁表的相关sid号每条代表的是 被锁的 和 锁人的 一目了然 可以看见是什么sql_text 导...原创 2020-03-27 15:20:49 · 201 阅读 · 0 评论 -
Linux环境下安装Kettle软件
博文目录Linux下安装Kettle1. 介绍1.1. 目的1.2. 范围2. 安装准备2.1. 用户规划2.2. 目录规划2.3. 安装包准备2.4. 环境变量配置3. 开始安装4. 安装检查Linux下安装Kettle1. 介绍1.1. 目的此文档为环境 ETL Server 安装 Kettle 提供操作指引。1.2. 范围此文档仅限 Linux 环境安装。供 ETL 开发维护...原创 2020-03-27 14:57:16 · 1965 阅读 · 0 评论 -
Oracle 数据导出方案
博文目录Oracle 数据获取方式分析Oracle Data PumpOracle EXPDP 导出数据EXPDP资料备份图解第一步,方法/步骤 在“运行”里打开`cmd`第二步,EXPDP备份命令Oracle EXPDP 监控Oracle EXPDP Job操作Oracle IMPDP 导入数据Oracle 数据获取方式分析获取方式实现方法影响分析Data Purge ...原创 2020-03-27 12:12:07 · 583 阅读 · 0 评论 -
通过SQL 操作大数据Hbase数据表的方法
类SQL语句操作Hbase表1、Phoenix 操作HbasePhoenix它相当于一个Java中间件,帮助开发者,像使用jdbc访问关系型数据库一些,访问NoSql数据库HBase。Phoenix它有支持二级索引的查询优势,并且在读取和写入数据之外,可以用SQL的方式按照Hbase表特点创建表。质量博文:Phoenix的安装使用与SQL查询HBase2、Hive、Impala 操作...原创 2020-03-26 18:08:26 · 621 阅读 · 0 评论 -
Spark2 QuickStart上手操作 (pyspark2)
[root@bdpcm01 spark2]# hdfs dfs -mkdir /tmp[root@bdpcm01 spark2]# hdfs dfs -put /opt/cloudera/parcels/SPARK2/lib/spark2/README.md /tmp>>> sc‘’’使用textFile 创建一个字符串的RDD‘’’lines = sc.te...原创 2020-03-26 17:13:40 · 529 阅读 · 0 评论 -
About Mysql创建用户和库&访问授权
Mysql创建用户及数据库:[root@bdpcm01 ~]# mysql -u root --password='123456' -e "create user 'sqoop'@'%' identified by '123456'"[root@bdpcm01 ~]# mysql -u root --password='123456' -e "create database sqoop def...原创 2020-03-25 18:09:44 · 167 阅读 · 0 评论 -
About Hive相关概念及HiveQL操作
博文目录Hive Testhive -e ''hive 表(分区和桶)hive 数据导入Hive 表的丢弃Hive 查询数据Hive 视图Hive Testhive -e ‘’[root@bdpdatanode01 ~]# hive -e 'select count(1) from prod_bdw.dwd_calendar'[root@bdpdatanode01 ~]# hive -S ...原创 2020-03-25 18:03:12 · 329 阅读 · 0 评论 -
About 数据仓库和ETL解决方案的相关总结(EDW&ETL)
博文目录ETL Tools For EDW 主题分享一、数据仓库基础概念1、定义2、关键特性3、粒度4、核心组件5、相关拓展二、数据仓库实施步骤1、定义范围2、确定需求3、逻辑设计4、物理设计5、转载数据6、访问数据7、管理维护三、ETL核心基础概念抽取-转换-加载(Extract-Transform-Load)1、数据抽取(最重要)2、数据转换(最复杂)3、数据装载(最关键)四、ETL开发方式&...原创 2020-03-24 20:54:43 · 1515 阅读 · 0 评论 -
About Hadoop BigData Platform Dataflow
大数据平台数据处理流程一、.XML文件处理 (jupiter)ftp文件服务器上传xml文件:自动消息日志通过 ftp 服务器将定义好类别的 xml文件主动推送到 bdpetl01/02 服务下的 /data/ftpdata/… 路径目录下;(包含主题:fabprocessdata、modprocessdata、tracedata)linux系统进行初步的文本处理:linux系统通过脚本对...原创 2020-03-23 18:06:31 · 367 阅读 · 0 评论 -
About Oracle REGEXP_LIKE
Oracle sql like多个条件函数:REGEXP_LIKE(字段名, ‘(匹配串1|匹配串2|…)’) ; //全模糊匹配REGEXP_LIKE(字段名, ‘^(匹配串1|匹配串2|…)’) ; //右模糊匹配REGEXP_LIKE(字段名, ‘(匹配串1|匹配串2|…)$’) ; //左模糊匹配CREATE OR REPLACE VIEW DWT_ARRAY_TT_2...原创 2020-03-23 15:37:13 · 199 阅读 · 0 评论 -
About Oracle DML性能提升
在Oracle中,如何提高DML语句的效率?若是批量处理海量数据的话通常都是很复杂及缓慢的,方法也很多,但是通常的概念是:分批删除,逐次提交。下面介绍一下提高DML语句效率的常用方法。Oracle日志模式分为(logging,force logging,nologging),默认情况是logging,就是会记录到redo日志中,force logging是强制记录日志,nologging是尽...原创 2020-03-23 15:23:25 · 158 阅读 · 0 评论 -
About Oracle BlockSession
Oracle BlockSession处理select username,blocking_session,blocking_session_status from v$session where blocking_session_status='VALID';--if blocking_session=97 select sid ,serial# from v$session where ...原创 2020-03-23 14:25:54 · 331 阅读 · 0 评论 -
About Oracle 分区(Partitions)-存储过程(Procedure)
Oracle有关存储过程处理表分区Procedure:alter_table_partition_nameECREATE OR REPLACE PROCEDURE ALTER_TABLE_PARTITION_NAMEASV_EXECUTE_SQL VARCHAR2(200);CURSOR PARTITION_STR IS SELECT A.TABLE_NAME,PARTITION_N...原创 2020-03-23 14:22:38 · 620 阅读 · 0 评论 -
About Oracle 分区(Partitions)
Oracle 分区相关:一、Oracle分区简介ORACLE的分区是一种处理超大型表、索引等的技术。分区是一种“分而治之”的技术,通过将大表和索引分成可以管理的小块,从而避免了对每个表作为一个大的、单独的对象进行管理,为大量数据提供了可伸缩的性能。分区通过将操作分配给更小的存储单元,减少了需要进行管理操作的时间,并通过增强的并行处理提高了性能,通过屏蔽故障数据的分区,还增加了可用性。二、O...原创 2020-03-23 13:56:42 · 293 阅读 · 0 评论 -
About EDW 命名规范参考
数据仓库模型命名规范参考:整体命名格式[库名/层名][主题/DBNAME][具体表名]_[模型更新周期][全量/增量标识](1)[库名/层名]:stg: 贴源数据 表名采用 stg_dbname_tablename_[模型更新周期][全量/增量标识]ods: 仓库基础层 为线上库快照数据dw: 仓库基础层 部分模型为缓慢变化表olap/fact: 事实表,方便rpt统计或者kylin...原创 2020-03-23 11:45:55 · 536 阅读 · 0 评论