大小不是白-CSDN博客

原创 Kudu基础学习文档

Kudu基础学习文档文章目录Kudu基础学习文档一、基础架构Kudu Master作用：Kudu Table的分区策略：二、API操作2、创建表3、删除表4、插入数据5、查询数据6、删除指定行Kudu列式存储管理器一、基础架构管理节点被称作Kudu Master，数据节点被称作Tablet Server（可对比理解HBase中的RegionServer角色）。一个表的数据，被分割成1个或多个Tablet，Tablet被部署在Tablet Server来提供数据读写服务Kudu Master作用：

2022-05-03 20:50:22 1850

原创一次FlinkSQL + Stream API 的简易尝试（涉及TOPN,JOIN,滑动窗口,动态开窗）

一次FlinkSQL的简易尝试（涉及TOPN,JOIN,滑动窗口）假象需求：根据不同的Key，实现不同的时间范围金额求和

2022-04-27 11:53:42 2720

原创 Hive / Presto 行转列列转行

行转列、列转行

2022-04-01 11:28:27 3484

原创 Flink KafkaSource常用调优

Flink KafkaSource常用调优1、Kafka动态分区发现该参数表示间隔多久检测一次是否有新创建的 partition。默认值是Long的最小值，表示不开启，大于0表示开启。properties.setProperty(FlinkKafkaConsumerBase.KEY_PARTITION_DISCOVERY_INTERVAL_MILLIS, "30000"); // 30s2、可选，从Kafka数据处生产WaterMark3、设置WaterMark空闲等待时间主要用来处理，多分

2022-03-31 16:12:54 3128

原创 Flink个人学习整理-Join和Hive Catalog篇（十五）

Flink个人学习整理-Join和Hive Catalog篇（十五）Flink JoinFlinkSQL中的状态永久保存默认：PT0S 永久保存public class FlinkSQL06_Join { public static void main(String[] args) throws Exception { // 获取运行时环境 StreamExecutionEnvironment env = StreamExecutionEnvironment

2021-08-20 15:41:59 339

原创 Flink个人学习整理-SQL篇（十四）

Flink个人学习整理-SQL篇（十四）一、查询1.1、未注册表 demopublic class Flink_SQL_NoTable { public static void main(String[] args) throws Exception { // 获取运行时环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2021-08-16 10:48:37 415

原创 Flink个人学习整理-TableAPI篇（十三）

Flink个人学习整理-TableAPI篇（十三）Flink将批数据看作一个有界流数据，将批处理看作流计算的一个特例，从而实现流批统一动态表：与表示批处理数据的静态表不同，动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询(Continuous Query)动态表与流的转换将动态表table转换为数据流，有两种方式1、toAppendStream 追加流只适合insert 无法操作有更新的操作【通用类 Row.class】2、toRetractSt

2021-08-12 09:36:02 529

原创 Flink个人学习整理-CEP篇（十二）

Flink个人学习整理-CEP篇（十二）FlinkCEP是在Flink实现的复杂事件处理库. 它可以让你在无界流中检测出特定的数据。复杂事件可以定义为多个事件放在一起来处理。例如：连续两个失败事件1、输入一个或多个事件构成的事件流2、制定匹配规则3、输出满足规则的复杂事件处理事件的规则，被叫做“模式”（pattern）一、个体模式个体模式包含：单例模式和循环模式单例模式：只能接收一个事件循环模式：可以接收多个事件// 量词start.times(3) // 匹配出现3次start

2021-07-30 16:29:36 630

原创 Flink个人学习整理-join篇（十一）

Flink个人学习整理-join篇（十一）join算子分为 Window Join 和 Interval JoinInterval Join:每条数据到来后，会扫描上界以及下届时间范围。

2021-07-27 13:53:51 235

原创 Flink个人学习整理-demo篇（十）

Flink个人学习整理-demo篇（十）1、双重聚合解决数据倾斜问题demopublic class Flink_PV_Window_Good { public static void main(String[] args) throws Exception { // 获取运行时环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2021-07-02 11:30:18 377

原创 Flink个人学习整理-状态一致性篇（九）

Flink个人学习整理-状态一致性篇（九）状态后端有状态的算子任务都会读取和更新状态，状态的存储、访问以及维护，由一个可插入的组件决定，这个组件就叫做状态后端（state backend）。状态后端的作用1、本地的状态管理2、将检查点（checkpoint）状态写入远程存储状态后端分类1、MemoryStateBackend 内存级别状态后端env.setStateBackend(new MemoryStateBackend());本地状态存储在JobManager的内存中, chec

2021-06-30 15:39:57 334

原创 Flink个人学习整理-Stage篇（八）

Flink个人学习整理-Stage篇（八）需要记住多个事件信息的操作就是有状态的流处理的状态功能：去重、检测、聚合、更新机器学习模型状态分类：Managed State 和 Raw StateFlink Runtime托管, 自动存储, 自动恢复, 自动伸缩Flink提供多种常用数据结构, 例如:ListState, MapState等使用前提：继承Rich函数类或其他提供好的接口类Managed State 分类1、Keyed State（键控状态）：只适用于KeyedStream

2021-06-30 10:57:40 492

原创 Flink个人学习整理-Process侧输出和定时器篇（七）

Flink个人学习整理-Process侧输出和定时器篇（七）一、侧输出流demopublic class Flink_Process_SideOutPut { public static void main(String[] args) throws Exception { // 获取运行时环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(

2021-06-23 19:38:06 402 2

原创 Flink个人学习整理-WaterMark篇（六）

Flink个人学习整理-WaterMark篇（六）1、Flink中的时间语义1.12之前时间语义分为3种I、处理时间（默认）II、事件时间III、数据进入时间1.12进行了更改时间语义合并为2种I、处理时间II、事件时间（默认）处理时间处理时间是指的执行操作的各个设备的时间。处理时间是最简单时间语义, 数据流和设备之间不需要做任何的协调.。他提供了最好的性能和最低的延迟.。但是, 在分布式和异步的环境下, 处理时间没有办法保证确定性, 容易受到数据传递速度的影响: 事件的延迟和

2021-06-23 14:07:59 580 1

原创 Flink个人学习整理-Windows篇（五）

Flink个人学习整理-Windows篇（五）窗口分为两大类：1、基于时间2、基于元素个数一、基于时间的窗口1、滚动窗口 TumblingProcessingTimeWindowspublic class Flink_Time_TumblingWindow { public static void main(String[] args) throws Exception { // 获取运行时环境 StreamExecutionEnvironment e

2021-06-18 17:11:49 251

原创 Flink个人学习整理-Sink篇（四）

Flink个人学习整理（四）SINK1.11之后，新增了JDBC sink【Kafka Sink】kafka消费者bin/kafka-console-consumer.sh --bootstrap-server 111.111.1.111:9092 --topic topic_sensorpublic class Fink_Sink_Kafka { public static void main(String[] args) throws Exception { //

2021-06-09 18:31:34 309

原创 Flink个人学习整理-算子篇（三）

Flink个人学习整理（三）一、转换算子1、基本类Map：将数据流中的数据进行转换，形成新的数据流，进一出一【RichMap】具有生命周期方法：open()、close()，常用在跟其他数据库交互时，创建链接等每个slot会被调用一次open，两次close，因为流关闭会触发cancel()方法，会再一次调用关闭可以获取运行时上下文：GetruntimeContext，常用做状态编程FlatMap：进一个，出0个或多个...

2021-06-07 18:00:37 800

原创 Hive-OLAP分析函数使用整理

Hive-OLAP分析函数使用整理函数主要有四个：1、grouping sets2、grouping__id（注意：是两个下划线）3、cube4、rollup【使用注意】打开map端聚合：set hive.map.aggr=truegrouping setsgrouping sets 等价于多个group by语句进行uniongrouping__id函数为每种聚合数据行生成唯一的组id、某一列参与了分组，对应位就被置为1，否则为0，用来区分查询结果中的null值是属于列本身的还

2021-06-05 14:46:33 482 1

原创 Flink个人学习整理-核心知识篇（二）

Flink个人学习整理（二）一、Flink运行架构

2021-05-24 10:43:58 221

原创 Flink个人学习整理-部署运行篇（一）

Flink个人学习整理一、初始FlinkFlink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员，2014年12月，Flink一跃成为Apache软件基金会的顶级项目。...

2021-05-23 16:38:06 645

原创阿里系云上离线数仓简单介绍

阿里系云上数仓简单介绍一、DataHub简介阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台，提供对流式数据的发布 (Publish)，订阅 (Subscribe)和分发功能，DataHub服务也提供分发流式数据到各种云产品的功能，目前支持分发到MaxCompute(原ODPS)，OSS等。DataHub作为一个流式数据处理服务，结合阿里云众多云产品，可以构建一站式的数据处理服务。二、MaxCompute简介MaxCompute（原ODPS）是一项大数据计算

2021-04-28 17:11:08 1202

原创 Hive 执行优化

Hive 执行优化<未完成>1、命令行执行显示优化set hive.cli.print.current.db=true;让提示符显示当前库set hive.cli.print.header=true;显示查询结果时显示字段名称set hive.fetch.task.conversion=more;查询不会执行mapreduce程序, 优化全局查找、字段查找、limit查找出现在hive 0.10，0.10~0.13 默认值 minimal 0.14后默认为 more

2021-04-13 19:07:00 972

原创 Python 连接 Presto

Python 连接 Presto下面是python连接presto的工具类，在连接presto的时候也遇到了点小坑，在执行插入时，遇到了坑。。。。。。欢迎各位指正，共同学习，共同进步import prestodbclass prestoDBUtil(object): def getConnect(self): prestoConnection = prestodb.dbapi.connect( host='111.111.111.111',

2021-04-09 21:21:58 1544 2

原创未来15天天气预测数据

未来15天天气预测数据个人学习分享，有可以改进的地方欢迎指出，共同学习。import requestsimport pandas as pdfrom bs4 import BeautifulSoupimport timefrom datetime import datetimeimport osimport reimport pypinyinfrom pypinyin import lazy_pinyin, load_phrases_dict# 安装：pip install pyp

2021-04-07 15:40:02 504 1

原创 Hive小知识点分享

Hive小知识点分享一、Hive过滤条件！= ’‘ 使用问题基础数据where a != ‘0’这里可以看到为 null的数据丢失了where a is not null二、Reduce参数设置失效问题调整reduce个数方式1：set mapred.reduce.tasks = 5调整reduce个数方式2：set hive.exec.reducers.bytes.per.reducer=500000000有以下3种情况会导致reduce个数为1设置为5个未使用gro

2021-04-01 16:28:17 218

原创天气数据的demo（2）

天气数据的demo（2）本次的是数据清洗+将抓取的json数据保存到本地中#-*- coding:utf-8 -*-import pandas as pdimport urllib.requestimport jsonimport csvimport osimport reimport timefrom datetime import datetimedef get_week_day(date): week_day_dict = { 0 : '星期一', 1 :

2021-04-01 16:16:19 123

原创 Presto性能调优与杂记

Presto性能调优与杂记1、Presto性能调优presto的那些常谈的调优，我这里就不再多说了，什么预先行列过滤、选取所需字段、少用distinct/Order by 等等的还是来说一下大表JOIN小表这个优化，大表放在前作JOIN操作确实是一个优化点，但是presto的join并不是默认为broadcast的！！！这是需要你去手动调整的！！！join-distribution-type Type: string Allowed values: AUTOMATIC, PARTITIONED,

2021-03-30 16:15:26 1207

原创抓取天气数据的demo

抓取天气数据的demo最近有点懒散了，摸鱼一篇。。。。。以下是抓取天气数据的demo本人也是刚开始学习Python，欢迎一起沟通学习#-*- coding:utf-8 -*-import urllib.requestimport timeimport jsonimport csvimport osimport reimport csvyears = [2021]for t_year in years: file_name = "C:/Users/aaa/Desktop/wea

2021-03-29 23:13:21 124

原创 MaxWell 使用笔记

MaxWell 使用笔记【待完善】目前使用场景：采集MySQL 的Binlog日志文件，以JSON的形式发送的Kafka指定的分区中1、修改配置文件vim /etc/my.cnf在[mysqld]下插入log-error=/var/log/mysqld.logpid-file=/var/run/mysqld/mysqld.pidserver-id= 1log-bin=mysql-binbinlog_format=rowbinlog-do-db=test#需要同步的业务数据库可以指定多

2021-03-22 19:15:00 1288 3

原创＜记＞一次IDEA 使用 SpringBoot 打包遇到的问题

<记>一次IDEA 使用 SpringBoot 打包遇到的问题IDEA版本：2019.2.3Java版本：1.8SpringBoot版本：2.4.3错误代码：[ERROR] Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.22.2:test (default-test)解决方案：在pom.xml文件中，添加跳过测试<properties> <java.version&

2021-03-16 20:17:57 209

原创＜记＞一次Hive tez丢数据问题

<记>一次Hive tez丢数据问题使用tez引擎 union all 数据丢失，在做大表数据2QW 关联小表数据是几百W 会造成数据丢失原因：暂未找到临时方案：先将小表数据优先关联好后，再去跟大表关联

2021-03-16 20:10:09 780

原创＜记＞一次Presto踩坑日志

<记> 一次Presto踩坑日志Presto任务执行大量失败报错查看新扩容Presto—Work机器配置：展示的是操作系统允许的线程总数和能够打开文件数的大小问题原因：扩容的2台机器操作系统参数设置较小，presto进程达到了系统所限制的最大打开文件数量。解决方案：下线新扩容机器cat /etc/security/limits.d/90-nproc.conf - nofile 65536 - nproc 65536重启进程cd presto/bin/./la

2021-03-16 20:00:03 622

原创 Nginx使用记录

这里写自定义目录标题Nginx使用记录Nginx使用记录1、安装依赖sudo yum -y install openssl openssl-devel pcre pcre-devel zlib zlib-devel gcc gcc-c++2、解压并安装–prefix=要安装到的目录1、./configure --prefix=/opt/module/nginx2、make && make install3、启动Nginxcd /opt/module/nginx/sb

2021-03-15 12:42:33 149 1

weixin_44560999的博客