子清.-CSDN博客

1 维度建模关键概念1.1 度量和环境1.2 事实和维度在维度建模中，度量称为事实，上下文和环境称为维度。1.3 事实表事实常以数值形式出现，而且一般都被大量文本形式的上下文包围着。这些文本形式的上下文描述了事实的“5个w”（when、where、what、who、why）信息事实表的一行对应一个度量事件。维度建模认为事实表应该包含最底层、最原子性的细节，因为这样会带来最大的灵活性。事实表中最常用的度量一般是数值型和可加类型。但事实表的度量并非都是可加的，有些是半可加性质的，另一些则是非可

2021-05-16 23:00:42 3020

原创 Oozie安装

0.下载（oozie 安装包较大，下载可能需要较长时间）链接: https://pan.baidu.com/s/1vzKDuPrWSgt7ECaUzE9iXw 提取码: vmtv 复制这段内容后打开百度网盘手机App，操作更方便哦1.解压 Oozietar -zxvf oozie-4.1.0-cdh5.14.2.tar.gz2.在 oozie 根目录下解压 oozie-hadooplibs-4.1.0-cdh5.14.2.tar.gzcd oozie-4.1.0-cdh5.14.2tar -z

2021-03-23 19:07:22 662

原创 Kettle快速入门

0.资源下载链接: https://pan.baidu.com/s/1EJGXy19x70081pl1MkxfDw 提取码: xn63 复制这段内容后打开百度网盘手机App，操作更方便哦1.快速入门将下载好的压缩包解压（注意：上级目录不能有中文）将mysql-connector-java-5.1.38.jar复制到lib文件夹下面进入目录data-integration，双击Spoon.bat启动（第一次记载比较慢）启动成功，点击右上角connect新建配置仓库注意：不能有中文

2021-03-22 22:31:26 1066 1

转载 HIVE中MACRO(宏)的使用

在编写HQL的过程中，很多逻辑需要反复使用。这时我们可以使用宏对这段逻辑进行提炼，起到优化开发效率、提升程序可读性的效果（尤其是括号嵌套很多层、case-when嵌套很多层的时候）。举个例子：create temporary macro sayhello (x string) concat('hello,',x,'!');select sayhello('程序员'); --输出：hello,程序员!在上面的的代码中，首先我们定义了一个名为sayhello的宏，输入参数为一个字符串x，输出为对x的拼接

2021-03-19 08:54:31 646 1

转载 Flink ProcessFunction API

我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件，例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如，Flink S

2021-03-10 18:37:36 199

转载 Flink Window窗口机制

总览Window 是flink处理无限流的核心,Windows将流拆分为有限大小的“桶”，我们可以在其上应用计算。Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制。在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一

2021-03-10 18:34:27 299

原创 Zeeplin配置、使用和调试local模式的Spark解释器的报错问题

netty包版本冲突报错代码java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.defaultNumHeapArena()I at org.apache.spark.network.util.NettyUtils.createPooledByteBufAllocator(NettyUtils.java:113) at org.apache.spark.network.client.TransportClientFac

2021-03-10 18:29:00 639

转载深入理解Flink核心技术

前言Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。文章转载自：深入理解Flink核心技术一.Flink简介Flink核心是一个流式的数据流执行引擎，其针对数据流

2021-03-07 15:39:37 534

原创 Presto安装

Presto安装链接: https://pan.baidu.com/s/18FnTB_0KiQ-5D9ZyHHc7Kg 提取码: tijp 复制这段内容后打开百度网盘手机App，操作更方便哦1 Presto Server安装0）官网地址https://prestodb.github.io/1）下载地址https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.196/presto-server-0.196.tar.gz2

2021-02-14 17:27:22 521

原创 kylin:web页面登录404： ERROR [localhost-startStop-1] context.ContextLoader : Context initialization faile

kylin安装后进行启动，然后登录kylin的web页面，出现了404问题，查看kylin的日志后发现报错：2021-02-13 08:22:21,791 ERROR [localhost-startStop-1] context.ContextLoader:350 : Context initialization failedorg.springframework.beans.factory.BeanCreationException: Error creating bean with name 'o

2021-02-14 17:00:13 2031 1

原创 Kylin安装

文章目录Kylin安装1 Kylin依赖环境2 Kylin搭建3 Kylin兼容性问题4 Kylin启动Kylin安装1 Kylin依赖环境安装Kylin前需先部署好Hadoop、Hive、Zookeeper、HBase，并且需要在/etc/profile中配置以下环境变量HADOOP_HOME，HIVE_HOME，HBASE_HOME，记得source使其生效。2 Kylin搭建1）上传Kylin安装包apache-kylin-3.0.2-bin.tar.gz链接: https://pan.b

2021-02-14 16:27:35 882

原创 Datagrip连接Hive及常用配置

datagrip连接Hive客户端1）启动datagrip后的初始页面2）连接hive客户端3）启动hiveserver2hiveserver2出现4个id启动成功4）配置连接hive客户端参数5）显示gmall数据库6）显示控制台7）在控制台上选择操作gmall数据库常用配置1）进入配置页面2）修改字体大小通过鼠标滚动，设置字体大小。...

2021-02-14 15:52:48 2733

原创 Datagrip安装

文章目录datagrip安装1.资源下载2.安装datagrip激活datagrip汉化datagrip安装1.资源下载链接: https://pan.baidu.com/s/13VbH0dKmt4pQG_AYmJNZGQ 提取码: vjyw 复制这段内容后打开百度网盘手机App，操作更方便哦2.安装1）双击datagrip-2019.3.5_2.exe2）进入欢迎页面，点击next3）是否卸载旧的版本4）修改安装路径5）后面所有步骤，一路下一步，直到完成。datagrip激活

2021-02-14 12:16:50 927

原创解决superset中文显示乱码问题

有些版本的superset查询中文结果会有乱码，解决办法如下在后面添加?charset=utf8当然要把xxxxxx这个加密的密码重新输入一遍

2021-02-12 18:28:10 11715 3

原创 Superset使用

Superset使用1 对接MySQL数据源1.1 安装依赖(superset) [atguigu@hadoop102 ~]$ conda install mysqlclient说明：对接不同的数据源，需安装不同的依赖，以下地址为官网说明http://superset.apache.org/installation.html#database-dependencies1.2 重启Superset(superset) [atguigu@hadoop102 ~]$ superset.sh res

2021-02-12 18:07:47 722

原创 Superset安装教程

Superset安装及使用Superset官网地址：http://superset.apache.org/1 安装Python环境Superset是由Python语言编写的Web应用，要求Python3.6的环境。1.1 安装Minicondaconda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同Python版本的软件包及其依赖，并能够在不同的Python环境之间切换，Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等，Minico

2021-02-12 17:05:42 2547 6

原创 Azkaban多Executor模式下注意事项

Azkaban多Executor模式是指，在集群中多个节点部署Executor。在这种模式下， Azkaban web Server会根据策略，选取其中一个Executor去执行任务。由于我们需要交给Azkaban调度的脚本，以及脚本需要的Hive，Sqoop等应用只在hadoop102部署了，为保证任务顺利执行，我们须在以下两种方案任选其一，推荐使用方案二。方案一：指定特定的Executor（hadoop102）去执行任务。1）在MySQL中azkaban数据库executors表中，查询hadoo

2021-02-12 16:14:50 694

原创 Azkaban集群部署教程

本文所用的资源文件：链接: https://pan.baidu.com/s/1-c-vr5rjoGbESQYNKnbkhg 提取码: cpus 复制这段内容后打开百度网盘手机App，操作更方便哦1 集群模式安装1.1 上传tar包1）将azkaban-db-3.84.4.tar.gz，azkaban-exec-server-3.84.4.tar.gz，azkaban-web-server-3.84.4.tar.gz上传到hadoop102的/opt/software路径2）新建/opt/modul

2021-02-12 16:09:57 932 1

转载 hive中解决中文乱码

一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱们的mysql默认编码是latin1,但是我们在日常开发中大多数情况下需要用到utf-8编码,如果是默认latin1的话,咱们的中文存储进去容易乱码,所以说大家在遇到一些

2021-02-10 09:24:35 5318

原创 Shell中单引号和双引号区别

1）创建一个test.sh文件vim test.sh 在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`2）查看执行结果test.sh 2020-06-14$do_date2020-06-14'2020-06-14'"$do_date"2020年 06月 18日星期四 21:02:08 CST3）总结：

2021-02-09 09:28:45 203

原创 Hive配置Spark计算引擎，速度快！

1.1 Hive引擎简介 Hive引擎包括：默认MR、tez、sparkHive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。1.2 Hive on Spark配置1）兼容性说明注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为

2021-02-08 21:03:20 7898 5

原创 hadoop集群启动脚本

在/root/bin目录下创建脚本vim hdp.sh添加如下内容#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in"start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------"

2021-02-07 11:36:08 2248

原创 kafka群起脚本

（1）在/root/bin目录下创建脚本kf.shvim kf.sh在脚本中填写如下内容#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo " --------启动 $i Kafka-------" ssh $i "/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/k

2021-02-04 20:22:39 320

原创 ZK集群启动停止脚本

1）在hadoop102的/root/bin目录下创建脚本vim zk.sh在脚本中编写如下内容#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo ---------- zookeeper $i 启动 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start" done};;"s

2021-02-04 19:58:28 377

原创 Hadoop支持LZO压缩配置详细（附文件）

支持LZO压缩配置1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。Hadoop支持LZO0. 环境准备maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可，yum -y install gcc-c++ lzo-devel zlib-devel a

2021-02-04 16:55:45 2741 1

转载 Attempting to operate on hdfs namenode as root

写在最前注意：1、master，slave都需要修改start-dfs.sh，stop-dfs.sh，start-yarn.sh，stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动，记得将root改为对应用户HDFS格式化后启动dfs出现以下错误：[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenode a

2021-02-04 15:20:23 617

原创集群所有进程查看脚本

在/root/bin目录下创建脚本xcall.sh[root@hadoop102 bin]# vim xcall.sh在脚本中编写如下内容#! /bin/bash for i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"done修改脚本执行权限[root@hadoop102 bin]# chmod 777 xcall.sh启动脚本...

2021-02-04 12:17:21 416

原创活动推荐系统项目（数据准备阶段将数据导入hive）

数据下载链接: https://pan.baidu.com/s/1JfJ5EK55-XQbgGODIpEWSw 提取码: gmkr 复制这段内容后打开百度网盘手机App，操作更方便哦介绍根据用户信息与活动(event)信息，预测用户将对哪些活动感兴趣。数据集介绍共有六个文件：train.csv，test.csv， users.csv，user_friends.csv，events.csv和 event_attendees.csv。train.csv 包含六列：user：用户idevent：活

2021-02-03 20:50:12 390

转载 Flink从入门到入土（详细教程）

和其他所有的计算框架一样，flink也有一些基础的开发步骤以及基础，核心的API，从开发步骤的角度来讲，主要分为四大部分1.EnvironmentFlink Job在提交执行计算时，需要首先建立和Flink框架之间的联系，也就指的是当前的flink运行环境，只有获取了环境信息，才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单// 批处理环境val env = ExecutionEnvironment.getExecutionEnvironment//

2021-01-18 23:07:45 1322

原创 VMware虚拟机扩容根目录磁盘容量

1、在VMware上扩展磁盘容量，由20G扩展到30G；这里提示我们需要到客户端虚拟机进行分区和扩展文件系统，因此进入系统2、开启虚拟机3、查看磁盘信息，可以看到系统下只有一块硬盘sda；[root@hadoop001 ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/mapper/centos-root 17G 5.3G 12G 32% /devtmpfs

2021-01-06 22:57:16 7493 12

原创 Flink 流处理api

文章目录1.Environment1.1 getExecutionEnvironment1.2 createLocalEnvironment1.3 createRemoteEnvironment2.Source2.1 从集合读取数据2.2 从文件读取数据2.3 以kafka消息队列的数据作为来源2.4 自定义Source3.Transform3.1 map3.2 flatMap3.3 Filter3.4 KeyBy3.5 滚动聚合算子（Rolling Aggregation）3.6 Reduce3.7 Sp

2021-01-04 20:03:23 239

原创 Spark Stream

文章目录第1章Spark Streaming概述1.1离线和实时概念1.2批量和流式概念1.3Spark Streaming是什么1.4Spark Streaming特点1.4.1易用1.4.2容错1.4.3易整合到Spark体系1.4.4缺点1.5Spark Streaming架构1.5.1架构图1.5.2背压机制第2章DStream入门2.1WordCount案例实操2.2WordCount解析2.3几点注意第3章DStream创建3.1RDD队列(了解)3.1.1用法及说明3.1.2案例实操3.2自定

2020-12-24 15:11:32 399

原创 HBase分布式环境搭建（更新更全面）

一、HBase分布式环境安装1.1 Zookeeper正常部署启动首先保证Zookeeper集群的正常部署，并启动：[root@hadoop102 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop103 zookeeper]$ $ZK_HOME/bin/zkServer.sh start[root@hadoop104 zookeeper]$ $ZK_HOME/bin/zkServer.sh start1.2 Hadoop正常部署启动

2020-12-17 19:47:23 290

转载 Kafka Stream

文章目录一、Kafka Stream背景1. Kafka Stream是什么2. 什么是流式计算3. 为什么要有Kafka Stream二、Kafka Stream架构1. Kafka Stream整体架构2. Processor Topology3. Kafka Stream并行模型4. KTable vs. KStream5. State store三、Kafka Stream如何解决流式系统中关键问题1. 时间2. 窗口3. Join4. 聚合与乱序处理5. 容错四、Kafka Stream应用示例五

2020-12-16 20:06:22 1063

原创 kafka开发过程报java.lang.IndexOutOfBoundsException

kafka开发过程报java.lang.IndexOutOfBoundsExceptionException in thread "wordcount-a57fafd2-4bb5-42e1-939a-70ebb0eeddea-StreamThread-1" java.lang.IndexOutOfBoundsException at java.nio.Buffer.checkIndex(Buffer.java:546) at java.nio.HeapByteBuffer.getLong(HeapBy

2020-12-16 15:45:11 1095 3

原创 Zeeplin安装教程

文章目录一、下载安装包二、上传并解压三、修改配置文件四、启动zeppelin五、配置hive解释器5.1 环境和jar包准备5.2 在web界面配置集成hive六、使用Zeppelin的hive解释器一、下载安装包进入官网进行下载。http://zeppelin.apache.org/download.html我这里选用的版本如下：zeppelin-0.8.1-bin-all.tgz二、上传并解压上传到Linux并进行解压。tar -zvxf zeppelin-0.8.1-bin-all.t

2020-12-14 18:54:40 1158 1

原创 Kafka面试题

1.Kafka中的ISR、AR又代表什么？ISR：与leader保持同步的follower集合AR：分区的所有副本2.Kafka中的HW、LEO等分别代表什么？LEO：每一个副本的最后条消息的offsetHW：一个分区中所有副本最小的offset3.Kafka中是怎么体现消息顺序性的？每个分区内，每条消息都有一个offset，故只能保证分区内有序。4.Kafka中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？拦截器 -> 序列化器 -> 分区器5.Kafka生

2020-12-09 22:14:06 159

原创 Kafka（总）入门+深入

文章目录第1章 Kafka概述1.1 消息队列（Message Queue）1.1.1 传统消息队列的应用场景1.1.2 消息队列的两种模式1.2 定义1.3 Kafka基础架构第2章 Kafka快速入门2.1 安装部署2.1.1 集群规划2.1.2 jar包下载2.1.3 集群部署2.2 Kafka命令行操作第3章 Kafka架构深入3.1 Kafka工作流程及文件存储机制3.2 Kafka生产者3.2.1 分区策略3.2.2 数据可靠性保证3.2.3 Exactly Once语义3.3 Kafka消费者

2020-12-09 21:55:53 231

原创 Kafka监控（Kafka Eagle）

第5章 Kafka监控（Kafka Eagle）1）修改kafka启动命令修改kafka-server-start.sh命令中if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"fi为if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-server -Xms2G -Xmx2G -XX:PermSize=

2020-12-09 21:42:15 293

resources_zh_CN_DataGrip_2019.3_r1.jar

azkaban-web-server-3.84.4.tar.gz

datagrip-2019.3.5_2.exe

空空如也