2020年12月_GOD_WAR

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 mysql Binlog日志并对接Kafka实战

对于 Flink 数据流的处理，一般都是去直接监控 xxx.log 日志的数据，至于如何实现关系型数据库数据的同步的话网上基本没啥多少可用性的文章，基于项目的需求，经过一段时间的研究终于还是弄出来了，写这篇文章主要是以中介的方式记录下来，也希望能帮助到在做关系型数据库的实时计算处理流的初学者。一、设计流程图二、MySQL 的 Binlog 日志的设置找到 MySQL 的配置文件并编辑：[root@localhost etc]# vim /etc/my.cnf[mysqld]# 其它

2020-12-31 11:02:28 2438 1

原创 50道Hive SQL练习题

建表create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by '\t';create table course(c_id string,c_name string,t_id string) row format delimited fields terminated by '\t';create table teacher(t

2020-12-26 22:11:09 2022

转载教你如何迅速秒杀掉：99%的海量数据处理面试题

前言毕竟受文章和理论之限，本文将摒弃绝大部分的细节，只谈方法/模式论，且注重用最通俗最直白的语言阐述相关问题。最后，有一点必须强调的是，全文行文是基于面试题的分析基础之上的，具体实践过程中，还是得具体情况具体分析，且各个场景下需要考虑的细节也远比本文所描述的任何一种解决方法复杂得多。何谓海量数据处理？所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。 ...

2020-12-19 18:41:03 369 1

原创什么是维度，什么是事实，什么是度量，什么是粒度

维度在《数据仓库工具箱》一书中对维度的定义是：维度表是事实表不可或缺的组成部分。维度表包含业务过程度量事件有关的文本环境。他用来描述与"谁、什么、哪里、何时、如何、为什么"有关的事件。维度用来描述事实，他从不同角度描述事实，也就是说维度是描述事实的角度。我们描述事实的何时，那么就是时间维度。比如我们描述这件商品的何时售出，那就是时间维度比如我们描述这件商品的何地售出，那就是地理维度比如我们描述这件商品的被谁买了，那就是人员维度等等等事实在《数据仓库工具箱》一书中对事.

2020-12-17 11:44:35 6665 3

转载 Kafka SCRAM和PLAIN权限认证

目前Kafka ACL支持多种权限认证，今天笔者给大家介绍一下SCRAM和PLAIN的权限认证。验证环境如下： JDK： 1.8 Kafka： 2.3.0 Kafka Eagle： 1.3.8 2.1PLAIN认证首先，在$KAFAK_HOME/config目录新建一个文本文件，名为kafka_server_plain_jaas.conf，配置内容如下：KafkaServer { org.apache.kafka.common.secur...

2020-12-16 21:47:37 2122

原创 Flink CEP 实现动态更新规则

规则引擎通常对我们的理解就是用来做模式匹配的，在数据流里面检测满足规则要求的数据。有人会问为什么需要规则动态变更呢？直接修改了规则把服务重启一下不就可以了吗，这个当然是不行的，规则引擎里面通常会维护很多不同的规则，例如在监控告警的场景下，如果每个人修改一下自己的监控阈值，就重启一下服务，必然会影响其他人的使用，因此需要线上满足规则动态变更加载。本篇基于Flink-Cep 来实现规则动态变更加载，同时参考了Flink中文社区刘博老师的分享(https://developer.aliyun.com/articl

2020-12-14 22:29:00 3960 4

原创 Flink 1.11 Checkpoint 原理及优化

一、什么是 checkpoint上次发文，提到了 Flink 可以非常高效的进行有状态流的计算，通过使用 Flink 内置的 Keyed State 和 Operator State，保存每个算子的状态。默认情况下，状态是存储在 JVM 的堆内存中，如果系统中某个环节发生了错误，宕机，这个时候所有的状态都会丢失，并且无法恢复，会导致整个系统的数据计算发生错误。此时就需要 Checkpoint 来保障系统的容错。Checkpoint 过程，就是把算子的状态周期性持久化的过程。在系统出错后恢复时

2020-12-14 11:34:06 1541

原创 Filebeat 安装和配置详解

Filebeat 安装和配置详解一、下载 https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-6.2.3-linux-x86.tar.gz二、解压安装安装目录 /opt tar -xvf filebeat/filebeat-6.2.3-linux-x86.tar.gz三、配置详解配置文件（/opt/filebeat-6.2.3-linux-...

2020-12-14 10:15:11 1706

原创基于Filebeat+Kafka+Flink仿天猫双11实时交易额

基于Filebeat+Kafka+Flink仿天猫双11实时交易额1. 写在前面在大数据实时计算方向，天猫双11的实时交易额是最具权威性的，当然技术架构也是相当复杂的，不是本篇博客的简单实现，因为天猫双11的数据是多维度多系统，实时粒度更微小的。当然在技术的总体架构上是相近的，主要的组件都是用到大数据实时计算组件Flink(当然阿里是用了基于Flink深度定制和优化改装的Blink)。下图是天猫双11实时交易额的大体架构模型及数据流向(参照https://baijiahao.baidu.com/s?

2020-12-14 10:10:28 616

转载一致性协议算法-2PC、3PC、Paxos、Raft、ZAB、NWR超详细解析

一致性协议算法-2PC、3PC、Paxos、Raft、ZAB、NWR超详细解析背景在常见的分布式系统中，总会发生诸如机器宕机或网络异常（包括消息的延迟、丢失、重复、乱序，还有网络分区）等情况。一致性算法需要解决的问题就是如何在一个可能发生上述异常的分布式系统中，快速且正确地在集群内部对某个数据的值达成一致，并且保证不论发生以上任何异常，都不会破坏整个系统的一致性。CAP 定理CAP 理论告诉我们，一个分布式系统不可能同时满足一致性（C:Consistency)，可用性（A: Ava.

2020-12-12 16:34:49 1450 1

原创轻量级BI工具Superset的搭建与使用

环境准备：系统环境：Windows 10Python：3.6.6Superset：0.27.00 Superset 简介 Superset 是一款由 Airbnb 开源的“现代化的企业级 BI（商业智能） Web 应用程序”，其通过创建和分享 dashboard，为数据分析提供了轻量级的数据查询和可视化方案。 Superset 的前端主要用到了 React 和 NVD3/D3，而后端则基于 Python 的 Flask 框架和 Pandas、SQLAlchemy 等依赖库，主要

2020-12-12 12:00:30 825

原创 dataX的安装

dataX的安装一、前置条件LinuxJDK(1.8以上，推荐1.8)Python(推荐Python2.6.X)Apache Maven 3.x (Compile DataX)linux查看版本：cat /etc/issuecat /etc/redhat-releaseJDK查看版本：java -versionpython版本查看（通常系统自带2.x版本）python -Vmaven版本查看：mvn -v二、开始安装1.下载dat.

2020-12-12 11:18:38 667

原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

hadoop3.2.1 hive3.1.2 集成 TEZ 引擎能正常select查询，计算报错报错如下：hive> select appid,deviceid,count(*) from applog group by appid,deviceid;Query ID = hadoop_20201211141905_6883a7aa-4b93-43c1-808e-044c932718efTotal jobs = 1Launching Job 1 out of 12020-12-..

2020-12-12 11:04:14 5675 2

原创 tableau对120年的奥运数据可视化分析

0x00 Tableau简介Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具，可用来实现交互的、可视化的分析和仪表盘应用。Tableau提供了体验感良好且易用的使用界面，在处理大规模、多维数据时，可以即时从不同角度看到数据呈现的规律。操作简单，大大降低了技术门槛，但其呈现出来的效果却十分优秀。本文围绕一个使用Tableau进行可视化的实例，介绍了Tableau中一些基础概念和绘图的简单操作，下面一起开始可视化之旅吧~0x01 奥运会数据集可视化数据来源：Kaggl

2020-12-12 08:51:26 3995 1

原创 clickhouse Code: 49. DB::Exception: Logical error: zero number of streams requested.

clickhouse 创建数据库，创建表，插入数据都ok查询的时候报错：Received exception from server:clickhouse Code: 49. DB::Exception: Received from localhost:9000, ::1. DB::Exception: Logical error: zero number of streams requested.解决如下SET max_threads = 16SELECT * FRO...

2020-12-11 09:35:01 1428

原创 centos7 clickhouse安装遇到的坑

centos7 clickhouse安装遇到的坑先做些准备工作：不同版本的centos系统可能不一致，需要自己注意1 .CentOS取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容：[root@hadoop102 software]# vim /etc/security/limits.conf在文件末尾添加：* soft nofile 65536* ha

2020-12-10 09:01:37 1186

原创 Flink 1.11.2 SQL 读写 MySQL

FlinkSQL读取MySQL大多用作维表关联，聚合结果写入MySQL，简单记录一下用法。JDBC SQL Connector添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-jdbc_2.12</artifactId> <v...

2020-12-06 18:53:22 1464 3

原创 Structured Streaming入门实例

Structured Streaming入门实例Structured Streaming是Spark2.4版本推出的新的实时流处理计算。相比Spark Streaming具有更低的延迟。具体信息请看：Structured Streaming官方介绍示例一：words countScala代码package com.testimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSession

2020-12-06 14:36:33 314

原创 Flink广播变量broadcast

Flink广播变量broadcastBroadcast 广播变量：可以理解为是一个公共的共享变量，我们可以把一个dataset 或者不变的缓存对象（例如map list集合对象等）数据集广播出去，然后不同的任务在节点上都能够获取到，并在每个节点上只会存在一份，而不是在每个并发线程中存在。如果不使用broadcast，则在每个节点中的每个任务中都需要拷贝一份dataset数据集，比较浪费内存(也就是一个节点中可能会存在多份dataset数据)。import org.apache.flink.api.

2020-12-05 11:53:07 969

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yang灬仔