小中.-CSDN博客

原创 flink窗口计算

有了事件时间，基于窗口的聚合(事件时间列上的一种特殊的分组和聚合)，每个时间窗口是一个组，每一行数据可以属于多个窗口。的字符串不会触发窗口计算，同时，清除器会清理30秒之前的数据，比如，某一次输入后，到了30秒之后继续输出，会重新开始统计。因此，如果滑动窗口的步长小于窗口大小，则滑动窗口可以重叠。：滚动窗口分配器将每个元素分配给指定大小的窗口，滚动窗口具有固定的大小，并且不重叠。事件被窗口分配器分配到窗口后，接下来需要指定想要在每个窗口上执行的计算函数（即窗口函数），以便对窗口内的数据进行处理。

2024-11-28 17:32:05 1101

原创数据湖iceberg和spark集成

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark…）之下，数据文件之上。

2024-06-25 15:52:41 1713

原创 No appropriate protocol -- Mysql

将VM options的TLSv1改为TLSv1.1。

2023-11-21 17:03:26 726

原创大数据分析仓库Kylin

Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。

2023-11-21 16:32:10 330

原创安装系统--SecureBoot需要关闭

当在BIOS里不能关闭，可以使用命令关闭。

2023-11-20 10:20:19 1268

原创数据仓库建设-数仓分层

数据仓库能够帮助企业做出更好的决策，提高业务效率和效益；在数据仓库建设时，绕不开的话题就是数仓分层。

2023-07-19 18:19:06 2479

原创 MacOS在终端中使用sshpass命令登录服务器

解决MacOS在终端中登录堡垒密码交互输入的麻烦。目前堡垒机不支持密钥，使用sshpass命令可以较便捷地连接服务器。

2023-07-05 14:58:05 1778 1

原创弃用本地分支所有代码，获取远程分支最新代码

git弃用本地已commit的代码，比如操作失误master分支pull了远程的dev分支；此时想恢复到远程的master分支，当前分支所有修改过的代码将全部丢失。请确保在执行这些操作之前，你已经备份了重要的代码，以防万一。

2023-06-06 18:19:51 921

原创手机号归属地和运营商数据(471452条)

中国手机号前七位可以确定手机号归属地;手机后缀为csv，可导入hive、mysql等数据库。整理的数据有471452条，涵盖95%的归属地数据。

2023-05-19 17:57:08 3337

原创 Hadoop或hive用户名和本地主机用户名不一样，不能读写

解决Hadoop集群用户名和程序运行主机用户名不一样不能读写，配置了HADOOP_USER_NAME不生效的问题。

2022-11-17 12:09:27 3948

原创 idea插件GenerateAllSetter

发现个好用的插件，可以自动列出对象的set方法

2022-08-23 17:33:00 522

原创 StopWatch统计耗时

StopWatch耗时统计

2022-08-23 17:15:58 369

原创 HBase集群修复工具HBCK2

HBCK2目前是一个简单的工具，一次只做一件事。在hbase-2.x中，Master是所有状态的最终决定者，所以大多数HBCK2命令原则是要求Master实现对hbase进行修复。这意味着在你运行HBCK2命令之前，Master必须已经启动。HBCK2的实现方法是利用Master的HbckService服务，该服务发布了一些方法供HBCK2工具使用。因此，HBCK2依赖Master的HbckService服务，HBCK2做的第一件事是探查集群以确保服务是可用的。...

2022-07-18 11:50:19 2937

原创 HBase&Spark集成 -- DataFrame

HBase&Spark集成 – DataFrame Apache HBase 是一个成熟的 NoSQL 存储系统，已在大规模生产部署中得到证明。尽管 HBase 是一个键值存储，但对于像 SQL 一样更轻松地访问数据的需求很高。Apache Spark SQL 提供了基本过滤和插入数据的强大支持。hbase-connectors子项目提供了HBase 与SparkSQL 的集成。 hbase -spark 集成利用 Spark-1.2.0 版本中引入的DataSource API。HB

2022-04-24 09:32:08 4254

原创 Spark分布式弹性数据集RDD、DataFrame和DataSet

Spark分布式弹性数据集RDD、DataFrame和DataSet首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。DataSet会逐步取代RDD和DataFrame成为唯一的API接口。RDDRDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简

2022-01-27 18:00:25 1020

原创 Mac电源适配器充不上电解决方案

Mac电源充电问题1、将电源适配器连接到电源和MAC。2、在内建键盘上，同时按下左侧Shift+Control+Option键和电源按钮3、同时松开所有键和电源按钮4、打开电脑问题就解决了就这样解决了

2022-01-25 09:29:42 5204

原创 org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.

org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.这个错误的解决方案如下： RoaringBitmap rbm = new RoaringBitmap(); // 序列化为byte数组，就可以保存到数据库了 byte[] array = new byte[rbm.serializedSizeInBytes()]; rbm.serialize(ByteBuffer.wrap(array)

2021-12-21 16:12:00 1401

原创 Linux快速入门

Linux1.Linux的引言Linux是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。伴随着互联网的发展，Linux得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器操作系统方面保持着强劲的发展势头以外，在个人电脑、嵌入式系统上都有着长足的进步。目前Linux存在着许多不同的Linux发行版本，但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中，比如手机、平板电脑、路由器、台式计算机。2.L

2021-09-30 17:53:15 452 1

原创 git快速入门

Git笔记1.Git解决现有项目中的哪些问题1.安全性太低2.项目无端报错3.项目版本混乱4.很难进行协同开发2.Git概念Git是一个分布式的版本控制及****协同开发工具3.版本控制工具的分类3.1.集中式的版本控制工具 cvs svn3.2.分布式的版本控制 Git4.下载，安装4.1.下载官网下载地址：https://git-scm.com/downloads在Windows上使用Git，可以从Git官网直接下载安装程序，然后按默认选项安装即可。4.2

2021-09-30 16:41:03 2826

原创 CentOS7常用命令

Linux常见配置防火墙配置1、查看服务状态[root@CentOS ~]# systemctl status firewalld● firewalld.service - firewalld - dynamic firewall daemon Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled) Active: active (running) sinc

2021-09-30 15:23:36 414

原创 ClickHouse编程指南

概述ClickHouse 是一个快速的的开源的OLAP大数据管理系统，该系统面向列存储，并且允许使用SQL实现实时查询生成分析报表。ClickHouse会充分利用所有可用的硬件，以尽可能快地处理每个查询。单个查询的峰值处理性能超过每秒2 TB（解压缩后，仅使用的列）。在分布式设置中，运行状况良好的副本之间的读取会自动保持平衡，以避免增加延迟。ClickHouse DBMS可以配置为位于独立节点上的纯分布式系统，而没有任何单点故障。它还包括许多企业级安全功能和针对人为错误的故障安全机制。ClickHo

2021-09-30 14:59:01 259

原创 Docker快速入门

Docker引言Docker的思想来自于集装箱，集装箱解决了什么问题？在一艘大船上，可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了，集装箱和集装箱之间不会互相影响。那么我就不需要专门运送水果的船和专门运送化学品的船了。只要这些货物在集装箱里封装的好好的，那我就可以用一艘大船把他们都运走。docker就是类似的理念。现在都流行云计算了，云计算就好比大货轮。docker就是集装箱。1.不同的应用程序可能会有不同的应用环境，比如.net开发的网站和php开发的网站依赖的软件就不一样，如果把他

2021-09-30 14:41:52 530

原创 HashMap性能提升

Java 8 中 HashMap 的性能提升 HashMap是一个高效通用的数据结构，它在每一个Java程序中都随处可见。先来介绍些基础知识，大家应该都知道，HashMap使用key的hashCode()和equals()方法来将值划分到不同的桶里。桶的数量通常要比map中的记录的数量要稍大，这样每个桶包括的值会比较少（最好是一个）。当通过key进行查找时，我们可以在常数时间内迅速定位到某个桶（使用hashCode()对桶的数量进行取模）以及要找的对象。这些东西你应该都已经知道了。你可能还知道哈希碰

2021-09-10 17:19:27 510 3

原创 Redis快速入门

Redis1. NoSQL的引言NoSQL(Not Only SQL )，意即不仅仅是SQL, 泛指非关系型的数据库。Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。2. 为什么是NoSQL随着互联网网站的兴起，传统的关系数据库在应付动态网站，特别是超大规模和高并发的纯动态网站已经显得力不从心，暴露了很多难以克服的问题。如商城网站中对商品数据频繁查询、对热搜商品的排行统计、订单超时问题、以及微信朋友圈（音频，视频）存储等相关使用传统的关系型数据库实现就显得非常复杂，虽然能实现

2021-08-21 23:39:03 180

原创解决HBase一个cell存储超10M的异常

解决Hbase KeyValue size too large或 Cell with size 25000046 exceeds limit of 10485760 bytes at的异常。HBase默认一个cell(单元格)只能存10M，有一些需求一个cell存大于10M的数据，比如将BitSet、BitMap对象存在HBase上。BitSet或BitMap存一亿个整数只需要11.9M，如存Integer需要381M，总之就是能节省很多空间。下一篇文章会讲BitSet、BitMap的算法这里就不多

2021-07-15 23:14:51 5405 4

原创 Bitmap、BitSet、RoaringBitmap持久化存储

Bitmap、BitSet持久化存储关于Bitmap的算法我在这里就不写了，这里主要提供一个持久化存储的思想。BitSet实现了Bitmap，BitSet还有很多方法可以查阅API。 // 创建BitSet对象 BitSet bitSet = new BitSet(10000000); // 将BitSet对象转换为long或byte类型的数组 //就可以将数组存储在HBase、MongoDB等数据库， long[] longs = bitSet.toLongAr

2021-06-26 12:36:07 2761

原创 flink实时计算热门商品

注意:以下文章转自：伍翀（WuChong），小编纯属收藏好文章不做任何商业用途，如有侵权请私信小编删除！！！原文链接：http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/ 在上一篇入门教程中，我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序：实时热门商品。在开始本文前我们建议你先实践一遍上篇文章，因为本文会沿用上文的my-flink-project项目框架。通

2021-03-14 20:43:09 301

原创 TCP协议，不一样的视觉体验

注意:以下文章转自微信公众号：码哥字节，小编纯属收藏好文章不做任何商业用途，如有侵权请私信小编删除！！！原文链接：https://mp.weixin.qq.com/s/muRxpfE5KGZPlGo0PelPfgTCP 你是一台电脑，你的名字叫 A 只要你知道另一位伙伴 B 的 IP 地址，且你们之间的网络是通的，无论多远，你都可以将一个数据包发送给你的伙伴 B 这就是物理层、数据链路层、网络层这三层所做的事情。站在第四层的你，就可以不要脸地利用下

2021-03-14 11:40:21 265 2

原创 idea远程调试tomcat

idea tomcat 远程调试2020-07-16阅读 1120编辑 tomcat/bin/catalina.sh把 localhost 改 0.0.0.0，否则 tomcat远程调试只能本机访问if [ "$1" = "jpda" ] ; then if [ -z "$JPDA_TRANSPORT" ]; then JPDA_TRANSPORT="dt_socket" fi if [ -z "$JPDA_ADDRESS" ]; then JPDA_ADDRESS="l

2021-02-14 12:59:14 1397

原创 spqrk 读取parquet文件按月、按季、按年统计

按月、按季、按年读取parquet文件案列// 启动spark yarnspark_yarn目录：./bin/spark-shell --master yarn --deploy-mode client --executor-cores 4 --num-executors 3// 设置基础目录：parquet文件时按日期分片存储scala> val basePath = "hdfs://192.168.88.1:8020/data/userzyk.parquet/"// 读取一个不同

2021-01-29 18:55:02 670

原创 MongoDB Shell 指南

介绍MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引.安装①安装MongoDB服务

2021-01-02 18:45:58 387

原创 dubbo快速入门

P1.dubbo的引言dubbo= RPC + 服务治理+ 资源调度RPC（Remote Procedure Call）远程过程调用，简单的理解是一个节点请求另一个节点提供的服务SOA（Service Oriented Architecture）“面向服务的架构”:他是一种设计方法，其中包含多个服务，服务之间通过相互依赖最终提供一系列的功能。一个服务通常以独立的形式存在与操作系统进程中。各个服务之间通过网络调用。微服务架构:其实和 SOA 架构类似,微服务是在 SOA 上做的

2021-01-02 18:43:39 202

原创 Flink Datastream实时计算

概述Flink是构建在数据流之上的有状态计算的流计算框架，通常被人们理解为是第三代大数据分析方案。第一代 - Hadoop的MapReduce计算（静态）、Storm流计算（2014.9）；两套独立计算引擎，使用难度大第二代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统一计算引擎，难度系数小第三代 - Flink DataStream(2014 .12) 流计算框架、Flink Dataset 批处理；统一计算

2020-12-07 17:17:01 1088

原创 SpringBootMyBatis自定义Redis二级缓存

SpringBootMyBatis自定义Redis二级缓存pom.xml导入依赖  <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> &lt

2020-11-27 18:28:17 352 4

原创 Spark Stanalone集群构建 HA

Standalone集群构建基础环境准备物理资源：CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.221.136CentOSB192.168.221.137CentOSC192.168.221.138节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、brokerCe

2020-11-27 17:05:54 183 1

原创 Spark结构化流

概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时，Spark SQL引擎将负责递增地，连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计算以及流到批处理的join操作。最后，系统通过检查点和预写日志来确保端到端（end to end）的一次容错保证

2020-11-27 16:50:39 1136

原创 Spark SQL BI分析

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互，例如Dataset API和SQL等，这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spark SQL还可用于从现有Hive安装中读取数据。从其他编程语言中运行SQL时，结

2020-11-27 16:46:00 1168

原创 Phoenix代码集成、Phoenix集成MapReduce和GUI使用

Phoenix集成Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询。Phoenix完全使用Java编写，作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集。下载apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz,注意下载的Phoenix版本必须和hbase目标版本保持一致。

2020-11-26 20:00:42 627

原创 mysql主从复制(读写分离)CentOS7

一、 Mysql主从复制搭建mysql主从复制,需要两台到多台机器之间相互通信1、测试两台机器要相互联通直接给密码和指定端口登录,注意:端口的-P为大写的Pmysql -u root -proot -h 192.168.87.150 -P 3306或mysql -u root -p -h 192.168.87.150150连接151151连接1502、数据库主从搭建Master配置①修改/etc/my.cnf[mysqld] [mysqld]datadir=/var

2020-11-10 21:27:18 264 2

原创 CentOS7安装mysql,yum安装

一、安装mysqlcentos操作系统独有的yum 安装,可以在有外网的情况下,直接使用命令安装,并自动安装依赖第一步：安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步：下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步：安装mysql-community-release-el7-

2020-11-10 21:23:28 202

2020年最新Java面试题.pdf

2020年最新Java面试题：1.JAVA基础 2.JVM 知识 3.开源框架知识 4.多线程 5.数据库知识

2020-11-22

四大运营商手机归属地数据

四大运营商手机归属地数据(471452条)：移动：134、135、136、137、138、139、147、148、150、151、152、157、158、159、165、172、178、182、183、184、187、188、195、197、198 联通：130、131、132、145、146、155、156、166、167、170、171、175、176、185、186、196 电信：133、141、149、153、162、173、174、177、180、181、189、190、191、193、199 广电：192 2023年5月整理，文件后缀：csv，可直接导入hive和mysql等数据库

2023-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2020年最新Java面试题.pdf

四大运营商手机归属地数据

apache-hive-1.2.2-bin_编译版本.tar.gz

spark-hive-thriftserver_2.11-2.4.5.jar

新年倒计时代码html

azkaban精简安装包.tar

spark-hive_2.11-2.4.5.jar

hive-hbase-handler-1.2.2.jar

azkaban编译版.tar.gz

空空如也