zhaojike-CSDN博客

自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

转载数据仓库建设—维度建模

维度建模是DW/BI系统的核心，他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标，分别是：能尽可能简洁的向用户展示需要的信息；能尽快返回查询结果给用户；能提供相关信息，以便精确的跟踪潜在的业务过程。维度建模能使任何事情尽可能简单，但绝不是简化。在数据仓库和商业智能中，维度模型是给用户显示信息的首选结构，其比典型的原系统规范化模型更便于用户理解。维度建模中表更少，信息分组为对用户有意义的、一致的业务类别。这些类别称为维度，有助于用户浏览模型，因为可以...

2020-10-20 10:07:58 1678

转载数仓构建流程

首先理解以下基本概念：1. 业务板块：比数据域更高维度的业务划分方法，适用于特别庞大的业务系统。2. 维度：维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型，为分析需求服务。维度是度量的环境，是我们观察业务的角度，用来反映业务的一类属性。属性的集合构成维度，也可以称为实体对象。例如，在分析交易过程时，可以通过买家、卖家、商品和时间等维度描述交易发生的环境。3. 属性（维度属性）：维度所包含的表示维度的列称为维度属性。维度属性是查询约束条件、分组和报...

2020-10-20 09:55:13 4269 2

转载数仓建设几个关键问题

数仓的功能以我当前的认知，数仓应该至少有下面三个职责:数据整合统一口径提高数据分析的效率下面详细说说这三点。数据整合数据整合是为了解决各系统的异构问题。对于大体量的公司来说，往往会投入大量的资源解决“数据孤岛”问题。当一个公司大了以后，随着部门、分公司的增多，信息系统很难再使用统一的系统，每个分公司可能会各自的系统，各个系统中数据结构定义往往是差异，由于这种差异的存在，A、B两个系统不能识别对方的数据，这就我所说的“信息孤岛”。信息好像在一个孤岛上，不能在其他系统中流转。好比，不懂

2020-10-19 11:14:24 1549

转载大数据增量同步实现方案

目前做的项目使用阿里 DataX 作为不同数据源数据同步的实现工具。数据的批量一次性导入比较简单，对于增量数据需要对不同场景设计不同的方案。会变的数据增量同步每天全量同步如人员表、订单表一类的会发生变化的数据，根据数据仓库的4个特点里的反映历史变化的这个特点的要求，我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据，这样历史的数据和当前的数据都可以很方便地获得。设定日分区，每天同步全量数据。--全量同步create table ods_user_full(..

2020-10-19 10:42:00 2365

原创 HIVE数仓分区表监控方式

#!/bin/bashsource /etc/profilesleep 10echo "v20180202"data_date=`date -d "$today" +%Y%m%d --date="-1 day"`function getPath(){sql_text="select s.LOCATIONfrom dbs dinner join tbls t on d.DB_ID = t.DB_IDinner join partitions p on t.TBL_ID = p.T.

2020-10-16 14:57:38 623

原创 HDFS 下SHELL脚本监控表信息

SHELL脚本监控表信息，触发电话或者其他服务#!/bin/shsource /etc/profilesleep 10echo "v20180202"data_date=`date -d "$today" +%Y%m%d --date="-1 day"`function getPath(){sql_text="select s.LOCATIONfrom dbs dinner join tbls t on d.DB_ID = t.DB_IDinner join part..

2020-10-16 14:53:49 354

原创 spark 安装实战

1. wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgztar -zxvf spark-2.2.0-bin-hadoop2.7.tgzmv spark-2.2.0-bin-hadoop2.7 spark-2.2.0vi /etc/profileexport SPARK_HOME=/u...

2019-05-19 19:19:12 343

原创 springBoot框架理解

1.起源Spring Boot 是由 Pivotal 团队提供的全新框架，其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。用我的话来理解，就是 Spring Boot 其实不是什么新的框架，它默认配置了很多框架的使用方式，就像 Maven 整合了所有的 Jar 包，Spring Boot 整合了所有的框...

2019-04-14 22:14:10 34379

原创 kafka安装及基本操作

1.jdk安装yum install java-1.8.0-openjdk* -y这种安装一个好处，不用定义环境变量，另外这种安装默认路径是：java linux 默认安装路径/usr/lib/jvm2.zookeeper 安装文件地址：http://www.apache.org/dist/zookeeper/stable/zookeeper-3.4.14.tar.gz解压到制...

2019-04-14 21:32:31 304

转载 CentOS7 安装Mysql5.7

1 安装 GCCyum install gccyum install tcl2 安装wgetyum install wget3 下载mysql源安装包 shell> wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm4 安装mysql源 shell&g...

2019-04-14 20:53:06 195

原创 kafka介绍

概念介绍Produce :消息队列生产者，想kafka的topic发送消息的进程/代码/服务Comsumer:消息队列消费者，订阅数据（topic）并处理其发布的消息的进程/代码/服务Comsumer Group :逻辑概念，对于同一topic,会广播给不同的group,一个group中，只有一个consumer可以消费该消息Broker:物理概念，kafka集群中每个kafka节...

2019-04-14 17:40:27 291

原创安装pip

Linux 下安装pip安装pip使用脚本安装和升级pip要安装或升级pip，需要下载get-pip.py. 地址：https://bootstrap.pypa.io/get-pip.py然后运行以下命令 (需要管理员权限):$ wget https://bootstrap.pypa.io/get-pip.py$ python get-pip.py$ pip -V　　#...

2017-10-18 17:23:13 586

原创 mysql数据文件同步脚本

从host1-->host2 服务器数据库首先：mysql -hhost1 -Pport1 -ugp_rpt -pPo3H3wAPIi3rznbe -N -e "SELECT order_id, request_id, contract_no, user_id, idcard_no, contract_amount, term, down_payment, phase_amou

2017-10-09 14:46:47 843

转载浅谈BI领域的数据模型设计（二）

分类：数据仓库与数据挖掘/**********************************/目录：第一部分：基础概念第二部分：设计方式第三部分：银行业数据模型基本概念介绍第四部分：银行业数据模型分主题介绍第五部分：ODS和EDW/**********************************/第三部分：银行业数据模型基本概念介绍1.什么是数据

2017-04-20 01:34:20 7696 1

转载数据立方体----维度与OLAP

数据立方体----维度与OLAP前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构，以及事实表（Fact Table）和维表（Dimension Table）的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式，而真正体现其在分析上的优势还需要基于模型的有效的操作和处理，也就是OLAP（On-line Analytical Processing

2017-04-20 00:43:13 1220

转载 OLTP与OLAP的介绍

OLTP与OLAP的介绍数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易

2017-04-20 00:34:36 417

转载数据仓库的模型设计

分类：数据仓库与数据挖掘Technorati 标签: 数据仓库,模型设计数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段：1，概念模型对业务的范围和使用，从高度上进行抽象概括，也就是划分主题域。一般划分为8个主题域：客户、服务、服务使用、账务、结算、资源

2017-04-05 00:12:25 8615

转载机器学习十大常用算法

机器学习十大常用算法通过本篇文章可以对ML的常用算法有个常识性的认识，没有代码，没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的，例子主要是分类问题。每个算法都看了好几个视频，挑出讲的最清晰明了有趣的，便于科普。以后有时间再对单个算法做深入地解析。今天的算法如下：决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算

2017-04-05 00:07:58 1141

原创搜索文件关键字find命令

搜索文件关键字find命令，举例说明：find ./ -name "*.jsp" -exec grep -l 操作员编号 {} \;find ./ -name "*.*" -exec grep -l run {} \;

2017-04-05 00:04:47 3003 1

原创 hive初始脚本

#!/bin/bashqueue_name=queue_gbd_ide_03;current_date0=`date +%s`;current_date=`date +%Y%m%d`;current_date1=`date +%Y%m%d -d "-1 month"`;current_date2=`date +%Y%m%d -d "-2 month"`;cu

2017-04-04 22:23:31 610

原创 String小点学习

这些是最常用的:

2017-04-04 22:21:49 423

原创 shell小案例

#!/bin/bashif [ -f /path/to/a.pid ];then num=$(cat /path/to/a.pid)kill -9 $numelseecho "have no pid,make sure app have running!"ficat tables|while read node do echo "no

2017-04-04 22:20:14 422

原创 awk工具小案例

1.基本的操作格式：awk '{pattern + action}' 或者 awk 'pattern {action}'2，基本语法：awk [ -F re] [parameter...] ['prog'] [-f progfile]3,显示文本文件myfile中第七行到第十五行中以字符%分隔的第一字段，第三字段和第七字段：awk -F % 'NR>=7,NR<

2017-04-04 22:18:09 364

原创 shell 脚本简单txt文本数据操作

#!/bin/bashfor i in `seq 1 1000`;doecho $i $i $i $i $i>>1.txtdone

2017-03-17 14:28:23 2657

转载什么是Quartz

什么是Quartz么是QuartzQuartz是一个完全由Java编写的开源作业调度框架，为在Java应用程序中进行作业调度提供了简单却强大的机制。Quartz允许开发人员根据时间间隔来调度作业。它实现了作业和触发器的多对多的关系，还能把多个作业与不同的触发器关联。简单地创建一个org.quarz.Job接口的Java类，Job接口包含唯一的方法： public

2017-03-14 17:25:11 1098

转载 quartz 2.2.3 自带示例源码解读example1~example5

版权声明：本文为博主原创文章，未经博主允许不得转载。目录(?)[+]Example1 第一个quartz示例[java] view plain copy public class HelloJob implements Job { private static Logger _log = LoggerFactory.getL

2017-03-10 16:39:16 361

转载 Quartz 中的任务开始、暂停和继续

Quartz 中的任务开始、暂停和继续第一个TASK:package com.paul.springbatchtest.tasklet;import org.quartz.SchedulerException;publicclass TaskOne{ public void execue() throws Sche

2017-03-10 11:00:39 1233

转载使用MyBatis的ScriptRunner执行sql文件

利用MyBatis的ScriptRunner执行sql文件利用MyBatis的ScriptRunner执行sql文件使用原因为什么选择scriptRunner纯java代码引用文件流的方式ant执行SQL脚本ibatis方式执行脚本scriptRunner使用 ibatis方式执行脚本scriptRunner需要的步骤使用原因我的

2017-03-08 11:20:16 1496

转载 Hadoop API 使用介绍

Hadoop API被分成（divide into）如下几种主要的包（package）org.apache.hadoop.conf 定义了系统参数的配置文件处理API。org.apache.hadoop.fs 定义了抽象的文件系统API。org.apache.hadoop.dfs Hadoop分布式文件系统（HDFS）模块的实现。org.apa

2017-03-01 17:40:16 315

转载 MapReduce工作原理图文详解

MapReduce工作原理图文详解2014-04-10 18:17 640人阅读评论(0)收藏举报MapReduce工作原理图文详解前言：前段时间我们云计算团队一起学习了Hadoop相关的知识，大家都积极地做了、学了很多东西，收获颇丰。可是开学后，大家都忙各自的事情，云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下，我们云计算团队重振

2017-03-01 17:38:46 298

原创初级数据模型讲解

数据模型　　模型是现实世界特征的模拟和抽象。在数据库技术中，用数据模型的概念描述数据库的结构和语义，是对现实世界的数据抽象。数据模型是研究数据库技术的核心和基础。数据库技术中研究的数据模型分为两个层面：一层是面向用户的，称为概念模型；另一层面是面向计算机系统的，称为结构模型。1. 概念数据模型　　概念数据模型是独立于计算机系统的数据模型，用来描述某个特定组织关心的信息结构，属于信息世

2017-02-24 17:05:34 896

转载数据库：行存储、列存储

目录(?)[+]文章来源：http://www.infoq.com/cn/articles/bigdata-store-choosePS:可以看一下文章中的概念，后面的结论部分可能存在一些问题，这里只是转载，如果有问题还请读者到原文回复~敬请谅解目前大数据存储有两种方案可供选择：行存储和列存储。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾

2017-02-24 15:55:10 556

转载 Impala 教程

Impala 教程标签： impala 2015-05-19 21:54 17179人阅读评论(1)收藏举报分类： impala（1）目录(?)[-]Impala 教程Set Up Some Basic csv TablesImpala 表指向已存的数据文件查看 Impala 表结构查询 Impala 表数

2017-02-24 14:47:42 464

原创 Null pointer access: The variable sb can only be null at this location

int[] number = null;这句不对，数组必须初始化才行，比如 int[] number = new int[3];别的类似。类似还有StringBuffer sb = null;没进行实例化所以需要StringBuffer sb = new StringBuffer ;

2017-02-22 18:08:47 1609

转载 Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来

2017-02-22 15:19:28 453

转载结构化数据、半结构化数据和非结构化数据

在实际应用中，我们会遇到各式各样的数据库如nosql非关系数据库（memcached，redis，mangodb），RDBMS关系数据库（oracle，mysql等），还有一些其它的数据库如hbase，在这些数据库中，又会出现结构化数据，非结构化数据，半结构化数据，下面列出各种数据类型：结构化数据：能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号。传统

2017-02-22 14:38:58 9386 1

转载大数据分析查询引擎Impala

摘要：Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。在介绍Impala之前需要先介绍Google的Dre

2017-02-21 17:57:36 1925 1

转载开源大数据查询分析引擎现状

【按：此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品，转载于此。这些基础性的研究和测试对比分析，对于我们的BDSA技术路线选定大有帮助。】引言大数据查询分析是云计算中核心问题之一，自从Google在2006年之前的几篇论文奠定云计算领域基础，尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GF

2017-02-21 17:42:38 1544

转载数据库表之表类型

从前只有一种类型的表，这千真万确，原先确实只有一种“普通”表。管理这种表就像管理“一个堆”一样。后来，Oracle又增加了几类更复杂的表。如今，除了堆组织表外，还有聚簇表（共有3种类型的聚簇表）、索引组织表、嵌套表、临时表和对象表。每种类型的表都有不同的特征，因此分别适用于不同的应用领域。 oracle有9种表类型： 1. 堆组织表：这种表类型的数据管理就像一

2017-02-21 17:00:19 4988

转载分布式数据库 HBase

HBase是 Hadoop 的正式子项目，它是一个面向列的分布式数据库。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目

2017-02-21 16:06:20 505

数据库-orcal.ppt

使用范围oracle初学者，详细涵盖了日常需要的oracle知识。

2013-07-06

Linux系统命令及其使用详解

Linux系统命令及其使用详解，涵盖工作中常用的linux命令。

2013-07-06

经典SQL语句大全

oracle经典sql总结，涵盖全，适合日常使用的sql，让学习者掌握轻松oracle。

2013-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除