大数据从零开始小熊嘛-CSDN博客

源数据格式：{ "funcName": "test", "data": { "snapshots": [{ "content_type": "application/x-gzip-compressed-jpeg", "url": "https://blog.csdn.net/xianpanjia4616" }], "audio": [{ "content_type": "audio/wav", "url": " https:/

2021-11-30 11:48:00 2513

原创 Flink概念

有界流和无界流无界流：有定义流的开始，但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我处理无界数据通常要求以特定顺序摄取事件，例如事件发生的顺序，以便能够推断结果的完整性。有界流：有定义流的开始，也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流处理通常被称为批处理有状态的计算架构所谓状态就是计算过程中产生的中间计算结果，每次计算新的数据进入到流式系统中都是基于中间状态结果的基础上进行运算，最终产生正确的统计结果事件时间（E

2021-11-24 10:26:57 1238

原创 ClickHouse05

分片集群副本虽然能够提高数据的可用性，降低丢失风险，但是每台服务器实际上必须容纳全量数据，对数据的横向扩容没有解决。要解决数据水平切分的问题，需要引入分片的概念。通过分片把一份完整的数据进行切分，不同的分片分布到不同的节点上，再通过 Distributed 表引擎把数据拼接起来一同使用。Distributed 表引擎本身不存储数据，有点类似于 MyCat 之于 MySql，成为一种中间件，通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据。注意：ClickHouse 的集群是

2021-11-22 14:18:02 1633

原创 ClickHouse04副本

第 6 章副本副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据。https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/6.1 副本写入流程6.2 配置步骤（1）启动 zookeeper 集群（2）在 hadoop102 的/etc/clickhouse-server/config.d 目录下创建一个名为 metrik

2021-11-22 14:06:25 1123

原创 ClickHouse03_SQL操作

第 5 章 SQL 操作基本上来说传统关系型数据库（以 MySQL 为例）的 SQL 语句，ClickHouse 基本都支持，这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL（MySQL）不一致的地方。5.1 Insert基本与标准 SQL（MySQL）基本一致（1）标准insert into [table_name] values(…),(….)（2）从表到表的插入insert into [table_name] select a,b,c from [table_

2021-11-22 10:53:34 232

原创 ClickHouse02

第 4 章表引擎4.1 表引擎的使用表引擎是 ClickHouse 的一大特色。可以说，表引擎决定了如何存储表的数据。包括：➢ 数据的存储方式和位置，写到哪里以及从哪里读取数据。➢ 支持哪些查询以及如何支持。➢ 并发数据访问。➢ 索引的使用（如果存在）。➢ 是否可以执行多线程请求。➢ 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。特别注意：引擎的名称大小写敏感4.2 TinyLog以列文件的形式保存在磁盘上，不支持索引，没有并发

2021-11-22 10:51:56 307

原创 ClickHouse01

ClickHouse 入门ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。1.1.5 数据分区与线程级并行ClickHouse 将数据划分为多个 partition，每个 partition 再进一步划分为多个 indexgranula

2021-11-22 09:42:15 840

原创 hbase建表

TTL 设置1.7.1# 建表时设置,TTL单位为秒，此例中列簇’f1’的数据保留1天（86400秒）hbase(main):002:0>create ‘table’, {NAME => ‘f1’, TTL => 86400}1.7.2# 通过修改表设置hbase(main):002:0>alter ‘table’, {NAME => ‘f1’, TTL => 86400}MIN_VERSION 设置要起到完全删除数据的作用的还需要设置MIN_VERSION为

2021-11-19 14:33:34 7287

原创数据分层~

ODS层存放的是接入的原始数据，DW层是存放我们要重点设计的数据仓库中间层数据，APP是面向业务定制的应用数据ETL：数据的抽取、洗净、传输ODS：不做过多的数据清洗，原封不动地接入原始数据DWD-数据明细层：保持和ODS层一样的数据粒度，并且提供一定的数据质量保证。同时，为了提高数据明细层的易用性，该层会采用一些维度退化手法，将维度退化至事实表中，减少事实表和维表的关联。另外，在该层也会做一部分的数据聚合，将相同主题的数据汇集到一张表中，提高数据的可用性，后文会举例说明。DWM-数据中间层：该层.

2021-11-17 09:13:36 673

原创 Flink SQL connector配置

jdbc 'connector.type' = 'jdbc', 'connector.url' = 'jdbc:mysql://dimension.db.inc.com:3592/dbzz_bigdata_dimension?useUnicode=true&characterEncoding=utf8&autoReconnect=true&failOverReadOnly=false', 'connector.username' = 'imension_rw'

2021-11-17 09:12:46 1818

原创 SQL 语句执行顺序

sql语句定义的顺序(1) SELECT (2)DISTINCT<select_list>(3) FROM <left_table>(4) <join_type> JOIN <right_table>(5) ON <join_condition>(6) WHERE <where_condition>(7) GROUP BY <group_by_list>(8) WITH {CUBE|ROLLUP

2021-11-16 11:00:13 138

原创 UDTF_自定义函数

样本数据{ "drpid": "8001", "mktid": null, "detail": [ {"uuid": "0","mktid": "1151","ymd": "20191001"}, {"uuid": "1","mktid": "1151","ymd": "20191001"}, {"uuid": "2","mktid": "1151","ymd": "20191001"} ]}SQL代码INSERT INTO ods_sink SELECT drpid,mk

2021-11-12 17:02:21 375

原创 2021-10-30

Apache Flink ——Table API 和 SQL创建环境Table API创建表环境SQL表的创建功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入创建环境Table APITableEnvironment tabl

2021-11-12 16:31:20 1070

原创 Hive SQL

DDL 表结构表的创建创建表create database if not exists myhive;create database myhive2 location '/myhive2';//指定hdfs存储位置查看数据库详细信息desc database myhive2;hive (myhive)> desc database extended myhive2;删除数据库drop database myhive2;创建表create table

2021-11-12 16:29:54 1743

原创 Linux 常用命令

目录pwd 查看当前工作目录clear 清除屏幕cd 目录切换 cd ~ 当前用户目录 cd / 根目录 cd - 上一次访问的目录 cd .. 上一级目录ll 查看当前目录下内容mkdir 创建目录文件操作查找find 查找文件 find / -name'abs'查询根目录下的abs文件和目录 find / -name'b*' 以b开头的目录和文件grep 查找文件中的内容cat 查看文件最后一页more 首页，回车键按

2021-11-11 10:02:38 386

weixin_45922185的博客

原创【无标题】

原创 Kafka JSON格式转换