有关数仓的一些思考 现在企业中大多用的模型都是维度建模,维度建模示面向分析场景而生。数仓模型的选择是灵活的,不局限于某一种模型方法数仓模型的设计也是灵活的,以实际需求场景为导向模型设计要兼顾灵活性、可扩展,而对终端用户透明性模型设计要考虑技术可靠性和实现成本...
雪花模型、星型模型的区别 雪花模型、星型模型和星座模型的区别星型模型和雪花模型的主要区别在于维度表的拆分,对于雪花模型维度表的设计更加规范,一般符合3NF对于星型模型来说,一般采用降维的操作,减少数据冗余,提高易用性和分析效率...
数据仓库建模基本理论 数据仓库建模基本理论一、ER实体模型二、维度建模三、dataVault模型四、Anchor数仓建模的目标访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本使用效率:改善用户应用体验,提高使用数据的效率数据质量:改善数据统计口径的不一致性,减少数据计算错误 的可能性,提供高质量的、一致的数据访问平台一、ER实体模型在信息系统中,将事物抽象成“实体”、“属性”、“关系”来表示数据关联和事物描述。实体:En
函数依赖问题 1、完全函数依赖通过AB可以得到C,但是通过A或者B单独得不出C,那么就说C完全依赖于AB2、部分函数依赖通过AB可以得到C,但是也可以通过A或者B单独得到C,那么就说C部分依赖于AB3、传递函数依赖通过A得到B,通过B得到C,但是A得不到C,那么就说C传递依赖于A...
数据仓库 认识数据仓库一、什么是数据仓库二、数据仓库的发展史三、基于大数据数仓构建特点四、数据仓库的应用范围与前景一、什么是数据仓库数据库1、数据库是按照数据结构来组织、存储、管理数据的建立在计算机存储设备上的仓库2、数据库是长期存储在计算机内、有组织的、可共享的的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和存储在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并在一定范围内为多个用户共享数据仓库数据仓库是面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策
集群集成Kerberos过程中遇到的坑 1、hdfs用户提交mr作业无法运行INFO mapreduce.Job: Job job_1442654915965_0002 failed with stateFAILED due to: Application application_1442654915965_0002 failed 2times due to AM Container for appattempt_1442654915965_0002_000002exited with exitCode: -1000 due to: A
Requested user hdfs is not whitelisted and has id 993,which is below the minimum allowed 1000 将数据从mysql往hdfs导入的时候报错ailing this attempt.Diagnostics: [2020-11-05 23:11:56.466]Application application_1604581963944_0008 initialization failed (exitCode=255) with output: main : command provided 0main : run as user is hdfsmain : requested yarn user is
Sqoop学习笔记 一、sqoop官网1、Sqoop 官网2、Sqoop Documentation (v1.4.7)二、简介sqoop是一个数据迁移工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中三、导入数据(RDBMS – > hive)数据准备--在mysql中建表 student
CDH 之 HDFS WebUI浏览器认证 (开启了kerberos认证之后) 设置CDH支持kerberos后会出现下图所示的情况1、打开火狐浏览器,在地址栏输入:about:config,进入设置页面(其它浏览器不得行)2、搜索“network.negotiate-auth.trusted-uris”,修改值为自己的服务器主机名。3、搜索“network.auth.use-sspi”,双击将值变为false。4、安装kfw (没有的可私我 kfw-4.1-amd64.msi)5、将集群的/etc/krb5.conf文件的内容复制到C:\ProgramData\MIT
Kerberos 原理 一、 Kerberos概述Kerberos 是一种计算机网络认证协议,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份,Kerberos服务器本身称为密钥分发中心或 KDC。二、几个重要的概念1、KDC:密钥分发中心,负责管理发放票据,记录授权2、Realm:Kerberos管理领域的标识3、principal:当每添加一个用户或服务的时候都需要向kdc添加一条principal,principl的形式为:主名称/实例名@领域名4、主名称:主名称可以是用户名或服务名
MySQL常用函数 常用函数1、ABSABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。2、ROUNDROUND(X) – 表示将值 X 四舍五入为整数,无小数位 ROUND(X,D) – 表示将值 X 四舍五入为小数点后 D 位的数值,D为小数点后小数位数。若要保留 X 值小数点左边的 D 位,可将 D 设为负值。示例: ROUND('123.
hive函数的分类 一、内置函数(1)日期函数from_unixtime(bigint unixtime[, string format]) --将时间戳转成dateunix_timestamp() --获取当前时间的时间戳(2)条件函数if(boolean testCondition, T valueTrue, T valueFalseOrNull) --如果value非空就返回value,否则就返回default_valuenvl(T value, T default_value)--类似于Java
hive自定义UDAF函数 hive自定义UDAF函数函数类需要继承UDAF类,内部类Evaluator实UDAFEvaluator接口。Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数。a)init函数实现接口UDAFEvaluator的init函数。b)iterate接收传入的参数,并进行内部的轮转。其返回类型为boolean。c)terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据,termi
hive的连接方式 (1)bin/hive 交互式查询#使用hive方式查询的时候显示字段信息<property><name>hive.cli.print.header</name><value>true</value><description>Whether to print the names of the columns in query output.</description></property>#使
hive自定义UDF函数解析JSON字符串 UDF函数作用:解析JSON字符串1、在pom.xml文件中添加依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> </dependency>2、jav
flum拦截器 package com.garret.chen;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.io.UnsupportedEncodingEx
linux上安装MySQL 1)卸载mariadbrpm -qa | grep mariadb | xargs rpm -e --nodeps2)下载msql5.7 yum源wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm3)安装yum源rpm -ivh mysql57-community-release-el7-9.noarch.rpm4)安装mysqlyum -y install mysql-server5)启