desYang-CSDN博客

原创 Hive任务参数优化建议

- 默认512M，为了避免占用太多内存的巨大请求、在较小的块上使用太多的内存。-- 最大值，允许executor使用堆外内存。--允许使用对外内存。

2023-07-18 10:51:24 699

几个月前，Filnk社区发布了最新的稳定版：Flink-1.11.1从2018年起就开始使用Flink解决金融业务场景的需求，我经历了Flink的1.6 -> 1.9 -> Blink -> 1.10.1 -> 1.11.1大概我总结了下，在我的工作中，Flink为我们带来了什么实际意义，在整个金融系统中，Flink扮演了一个什么角色呢？1.实时数据传递与聚合（1.6）：想象一下，我们有一个接口场景，例如在金融后台系统中，可以通过输入金融单号查询...

2020-08-14 15:47:47 2061

原创 Flink-1.11.1 Flink-SQL日期函数的一个坑

在Flink-SQL中有一个系统函数：CURRENT_DATE，没错，都知道这个表示的是当日的日期。在阿里云的Blink平台中，CURRENT_DATE很友好的把他显示的是今天。在Flink社区版中，这个CURRENT_DATE是指的UTC时间，太自信了连社区官网都不看，结果每天的指标跑出来都是错的，如果你早晨8点前在代码中执行：select CURRENT_DATE它显示的会是昨天。UTC时间比我们东八区北京时间慢了8小时。如果在项目中使用了CURRENT_DATE，你会发现指标在..

2020-08-14 14:55:52 5548

原创总结过去的Flink-SQL：一个基于阿里云Blink-Stream-Studio的实时指标SQL

贴一个曾经开发过的小需求，主要是按照产品与时间的细粒度对业务指标进行实时统计几个月前的了，我使用的是阿里云的StreamStudio可以直接写Flink-SQL进行统计，近期我们将本地线上环境升级到了Flink-1.11.1社区版，Flink-SQL的语法基本与Blink一致，并且Flink-1.11.1社区增加了对Hive的交互支持。一个小小的不满，Flink-1.11.1社区版并不能像阿里云Blink-Stream-Studio平台一样支持DDL的形式创建维度表，在1.11社区版中还是得用以前.

2020-08-14 14:48:02 776

原创使用FlinkSQL-1.11.1实现部分业务实时指标需求

实时指标需求文档：1.每日累计放款总额/** * @author: GuangYu * @CreatedDate: 2020/8/14 14:14 * @LastUpdateDate: 2020/8/14 14:14 * @Description: */ public class JobTodayLoanAmt { public static void main(String[] args) throws Exception { Environment

2020-08-14 14:29:55 716

原创解决：Specified key was too long; max key length is 767 bytes

近期对部分业务系统数据做迁移，全量同步到数据仓库的OLTP层（业务系统：mysql-5.7 阿里云polarDB / 数据仓库：mysql-5.7 阿里云RDS）一、正常的操作流程：1.但事务对数据库做 mysqldump2.load到数仓的MySQL部分二、出现的问题：dump正常，在load到数仓mysql时失败查看错误日志发现：1071 - Sp...

2020-04-15 11:49:54 29550

原创 TiDB 慢查询排查和优化

前段时间，我们升级了TiDB 3.0版本，我日常负责解决数据库慢查询的问题；众所周知，对于OLAP业务，资源限制一直是让人头痛的问题，有的job过多会影响整体调度系统的性能。而对于OLTP业务，同样存在着类似的卡点，即业务慢查询会对实时数仓的服务能力产生很大影响。举个例子：在数据聚合接口平台有百余个接口，这些接口实时的去查询数仓ODS层，而ODS层的数据也是实时从业务系统同步的，聚合接口平...

2019-12-23 11:55:23 3647

原创 idea 解决 Decompiled.class file, bytecode version 52.0 （Java 8）

这里我遇到了一个问题，我在尝试了解Flink如何结合calcite将一个SQL转化成TableAPI中的算子时，debug过程中到了package org.apache.calcite.sql.parser包中就看不到源码了，点了下载也没有用：思路：可能是没有找到.java文件所以idea去编译.class了于是失败提示出这个错误，那没有就自己想办法下一个这个calcite源码;解决办...

2019-12-11 10:41:41 19207

原创探究 Flink是如何把一条带join的Flink SQL转换成Table的 ?

Flink SQL功能很强大，但是现在基于1.9 的Flink SQL我们发现它缺少一些我很关心的功能，首先就是如何使用Flink SQL 的DDL或者insert语句把MySQL中的维表和Flink中的流表聚合起来而不使用代码级别的Table API描述需求：开发高阶API的目的是将复杂的技术逻辑下沉到低阶API中，以为平台的用户很可能不是一位代码开发者，不了解Flink技术，此时...

2019-12-06 18:51:31 1217

原创 Flink 1.5版本集群自动重启报错原因

公司在dev环境一直沿用早期的Flink 1.5版本，原因是Blink分支是基于flink1.5开发的，此版本集群用于发布基于Blink分支的流语言平台MVP版本，今天下午接到业务反馈数据不是实时的，调查发现是因为集群挂掉了于是尝试重启Flink-1.5.1 standalone集群，立刻出现GC及log报错日志2019-12-05 11:46:30,141 INFO org.a...

2019-12-05 14:23:51 2275 7

原创 Flink 1.9使用TableAPI 报错 NoMatchingTableFactoryException

将原有的Flink 1.6 TableAPI 切换成Flink 1.9 TableAPI 运行时报错如下 :尝试在网上搜索答案但是几乎无果，查阅官网尽管说明在yaml中配置connector.type但是不能解决本地运行的问题。后参考官网资料发现，在新一版的Flink中增加了Blink分支的Table Planner，于是尝试使用Blink分支的planner，问题解决，同时...

2019-12-04 14:41:20 4479 1

原创 Kafka Flink ES 集成

今天搭建简单的业务框架，可以提供ETL基础和对源数据的存储对于大数据的数据流转结构在企业应用中大同小异通常会在数据源接入数据采集框架（Flume，Canal，Sqoop，阿里的DataX等）和监控系统（Ganglia，Nagios）数据被采集后进入中间件，目前最活跃的非Kafka莫属中间件下游会对接流式框架，或者企业数据分析系统其实搜索嘛我也知道主要就是看怎么搭，至于功能...

2018-12-20 10:48:21 4269

原创解决java.lang.NoClassDefFoundError: org/slf4j/event/LoggingEvent

几天前同事给我一个flink数据聚合项目作为二期开发的demo我先对项目进行了一些测试，过程中在pom里增加了一些依赖测试程序结束，当我运行项目中的main时直接报错java.lang.NoClassDefFoundError: org/slf4j/event/LoggingEvent---找到原因：我在pom中重复引入了slf4j-simple依赖，和slf4j-log...

2018-11-12 14:41:27 11325 1

原创 Writable，WritableComparable，WritableComparator区别

Hadoop中Writable，WritableComparable，WritableComparator之间有什么区别？先上图大致理解一下这都是什么？一、Writable（接口）：其实Java用的是一套重量级的序列化框架（Serializable），一个类实现了序列化之后此类对象会附带各类校验啊、继承体啊、header等额外信息，更多的信息使得此种序列化机制不便于在网...

2018-07-22 00:57:59 3701 2

原创从源码分析MapReduce的数据切片原理

切片过程从JobSubmitter的writeSplits()开始---step into writeNewSplits()---step into getSplits() 开始获取新的切片首先会选出Format默认最小值和配置文件中设置的切片最小值二者中最大的一个getFormatMainSplitSize()默认返回值为1 getMinSplitSi...

2018-07-21 00:16:09 1181

原创 Driver驱动类中job的任务提交源码解读

Driver的提交：在此以简单的WordCount为例，通过DEBUG来了解Driver中submit()方法的执行流程（案例不是关键，重在通过源码学习submit的设计原理）1.前期准备：WordCount部分，在本地或虚拟机hadoop目录下创建一个简单的txt文本文件即可（我在本地d盘创建），内容随意如hadoop hadoopsparkhadoop atguiguspar...

2018-07-19 14:28:34 599

原创图表工具：Highcharts 使用( 上 )

最近在项目中接触了一个图表工具，个人感觉非常好用呀！由于暂时这个公司的组织架构，并非是前后端完全分离的，所以也需要我参与前台逻辑。对于前后端分离的这个事呢，我个人觉得有好有坏，比如我此前的东家是前后端完全分离的，那时几乎不写js，都是后台技术和逻辑。而现在的公司（不说名字了，互联网媒体，三个字，做新闻资讯，香港公司）在后台开发的同时需要我在web前台逻辑上也参与（h5）除外，记得刚入职的时候就...

2018-07-18 11:29:41 809

转载 Shiro登录机制验证，自定义FormAuthenticationFilter

自定义登录form拦截器：org.apache.shiro.web.filter.authc.FormAuthenticationFilter问题描述使用shiro进行系统身份验证-权限控制，登录界面进行登录操作何时触发boolean org.apache.shiro.web.filter.authc.AuthenticatingFilter.executeLogin(ServletRequest...

2018-05-08 19:22:06 3447

原创 Java实现对图像的水印处理

由于是前后端交互，就先给大家介绍一下这个模块的设计思路。首先前台使用uploader让用户选择图片上传并回显（可以参考我的《uploader.js上传与回显》），而我们实现的这个加水印的功能需要在回显前完成，并把水印后的图片存储在某个位置，假设我们先存储在本地磁盘。思路：简单理解一下这个过程 1. 后台正确接收到了multipartFile图片对象 ...

2018-05-03 16:10:17 4908 1

原创将前台表单的内容导出到Excel

整理此前在项目中的部分需求需求介绍：前台查询后展示一个表单，提供一个导出按钮，点击按钮通过浏览器自动下载，将展示的表单导出到Excel中以供用户使用。功能页面：功能效果：先说一下前台，只需要给按钮绑定单击事件，将表对应的数据对象传递给后台即可我在做这个功能时，这张表单展示的是当前所有用户的所有订单再说后台，后台中我们需要使用到POI中的HSSFWorkbook类，或者XSSFWorkbook类这两...

2018-05-03 11:19:18 5039

ygyblue2的博客