Steven

原创 Streamsets 3.23.0编译安装

Streamsets3.23安装使用

2022-09-06 15:32:38 664 3

原创 CentOS7使用yum安装jdk1.8

CentOS7使用yum安装jdk1.8

2022-09-06 15:05:55 739

原创 flinkcdc binlog到kafka

flinkcdc binlog到kafka

2022-06-30 16:01:20 1352

原创 streamsets连接mysql失败

StreamSets上连接界面报错

2022-06-20 09:36:43 529

**举例 **#!/bin/bashfind /root/test/ -mtime +30 -name "*.log" | xargs -i mv {} /root/copy/;解读: find 查找 /root/test/ 指定目录-mtime +30 30天前的（天数可自定义）-name “*.log” 所有.log结尾的文件 | xargs -i mv {} 固定写法 /root/RecycleBin/ 目标目录整句命令的意思：查找/root/test/目录下30天前的所有已.log

2022-05-10 12:12:37 2092

原创基于Flink的资讯场景实时数仓

基于Flink的资讯场景实时数仓1. 实时数仓介绍1.1.什么是实时数仓1.2.实时数仓技术架构2. 资讯场景介绍与技术架构设计2.1.业务场景2.2.业务目标2.3.技术架构4. 实时数仓搭建4.1.数据采集)1. 实时数仓介绍1.1.什么是实时数仓数据仓库定义：https://en.wikipedia.org/wiki/Data_warehouse，本质是把各种业务系统产生的数据通过一定的方式（数仓构建方法论）统一处理，从而产生更大的业务价值。数据仓库的价值：Successful ent

2022-03-26 17:02:28 1560

原创 adbpg 使用 insert onconflict 覆盖写入数据

在AnalyticDB PostgreSQL版数据库中，如何使用INSERT ON CONFLICT语法覆盖写入数据

2022-02-08 14:22:05 1639

原创 jdbc 批量插入greenplum测试

一次一次的插入十万条数据总耗时316543毫秒 try { Class.forName("org.postgresql.Driver"); connection = DriverManager.getConnection(url, user, passWord); ps = connection.prepareStatement(insertSql); long oddTime = System.curr

2022-01-14 10:56:02 1022

原创 flink

flink1Flink的特点2Flink架构体系简介3Flink环境搭建架构说明（standalone模式）搭建步骤启动flink集群和检测提交Flink任务4Flink编程入门DataFlow编程模型实时WordCountflink-javapom.xmlapiflink-scalapom.xmlapi1Flink的特点批流统一支持高吞吐、低延迟、高性能的流处支持带有事件时间的窗口（Window）操作支持有状态计算的Exactly-once语义支持高度灵活的窗口（Window）操作，支持基于

2021-07-05 22:11:14 835 2

原创 kafka生产者和消费者api

kafka生产者和消费者api生产者api消费者生产者apilinux上启动一个命令行消费者：/opt/apps/kafka_2.12-2.6.2/bin/kafka-console-consumer.sh–bootstrap-server centos01:9092,centos02:9092,centos03:9092 --topic wordcount --from-beginningobject ProducerDemo { def main(args: Array[String

2021-06-22 22:28:52 180

原创流量管理题目

流量管理方法一：DLS流量管理方法二：sql流量管理uid,start_time,end_time,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:

2021-06-18 11:20:52 187

原创 clickhouse第一天

clickhouseclickhouse-部署1.单节点部署1) 信息步骤2) CK目录介绍3) 启动启动服务clickhouse基础入门数据类型时间类型clickhouse-部署1.单节点部署1) 信息步骤安装curl工具yum install -y curl添加clickhouse的yum镜像curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo b

2021-06-17 09:46:36 618

原创 Topn高效

将指定的类放在key上（序列化+排序规则）重写分区规则重写分组器

2021-06-17 09:46:15 62

原创任务提交理解

conf.job.jar提交给resourcemanager，resourcemanager接受job，分配jobid，返回客户端分完id后会有一个MrApplication_001的对象，对象会找Application要一个运算资源，之后初始化代表自己的app对象。app从初始程序拿jar包，配置文件，输入路径，输出路劲，计算切片的事情。之后算好启动几个task（比如启动3个MapperTask，2个reducetask）开始run，向resourcemanager 申请资源，此时就可以看到两个g的

2021-06-17 09:45:49 115

原创 mr内部处理数据流程

根据输入路径中的文件个数和大小计算任务切片输出看k，v调用map方法，判断是否又k，v，有几个实行几次在map处理数据，在写出数据到缓冲区MapOutBuffer，里面进行hashcode，但可能时负的所以进入HashPartitoner进行处理缓存到数组中，环形数组，进行快排数组不写满，到80%，溢出器溢出，按分区编号溢出（0号区，1号区），至少溢出一次将溢出的相同的区号合并（Merger归并排序）启动reducer0和1， map端提供了shuffle服务分发，reducer通过F.

2021-06-17 09:45:25 136

原创 MR数据处理流程

MR数据处理流程4台机器作为运算资源的机器来处理数据，将处理的数据进行任务划分，根据数据的大小划分4机器并行处理数据输出数据任务划分，在分区器内对数据的hascode进行取模，有几台机器就进行几次取模，根据hascode分给运算机器进行处理最后保存最终结果Map阶段主要是将待处理的大量数据进行任务划分，并行处理数据通过分区器进行规则划分，将相同的单词分配到一个任务上[分区中]合并reducer端：并行计算分别处理数据自己分区的数据进行全局合并并得到最后结果保存在介质中（HDFS）..

2021-06-17 09:45:02 895

原创 hive第3天

hive第3天窗口函数laglead编号函数练习练习打地鼠动态分区表分桶表复合数据类型json数据存储格式窗口函数over() 在…之上…聚合函数() over() 指定窗口的大小select collect_set(ct) from tb_order;-- 每个人人分租组内聚合 select name,collect_set(ct) from tb_order group by name;select name,sort_array(collect_set(ct))from

2021-06-17 09:44:48 67

原创元数据管理+checkpoint

客户将数据存在内存中对其进行修改和查看优点：操作方便，处理快缺点：容易丢失为了防止丢失，将数据持久化（序列化）到磁盘，每次操作都要序列化，频繁的对象–IO—>磁盘，占用资源影响性能。所以定时序列化，1H序列化一次，但1H以内的数据不能保存安全所以及时存写客户操作日志...

2021-06-17 09:44:31 124

原创 hdfs读数据流程

读数据流程namenode记录元数据信息数据的实际位置虚拟目录----->实际位置/data/a,txt 3 300M(虚拟位置)a.txt_block0 0 128M [linux001 002 004]a.txt_block1 128M 128M [001 002 003]a.txt_block2 256M 44M [03 04 06]客户端请求namenode读取/data/a.txtnamenode返回数据的元信息选择一个近的节点请求下载第一个数据块解析存

2021-06-17 09:42:43 116

原创 HDFS架构nn dn交互，上传数据写数据流程

HDFS架构准备工作：三台机器（datanode）注册并汇报储存资源，主机器每三秒心跳感应客服端请求namenode存储数据到集群校验返回存储位置存储默认三个副本物理切块增加从节点注册扩容1.接受汇报 2.管理集群（节点列表，每个节点的存储资源）...

2021-06-16 22:04:52 278

原创 hive第二天

hive第二天静态分区二级分区练习1：查询语言练习01case when练习02 case when静态分区分区字段一个, 一级分区 , 分区字段有多个为多级分区二级分区分区字段为两个create table tb_partition( id int , name string , ct string )partitioned by (y string , m string) -- 二级分区 row format delimited fields termina

2021-06-16 22:04:28 136

原创 hive第一天

hive1.准备1.1本地连接1.2远程连接方式1.3入门2.DDL2.1 数据库2.2表操作2.2.0 数据类型2.2.1建表2.2.1.1 普通表2.2.1.2 外部表 / 内部表2.2.1.3 分区表静态分区3 DML3.1数据导入方式3.1.1 hdfs dfs -put/mv data.data /表目录下3.1.2 location 指定数据的位置3.1.3 load 命令3.1.4 create .. as.. selecte ;3.1.5 insert 数据3.1.6 覆盖导入3.1

2021-06-16 22:04:17 615

转载应用程序参数处理

原创 Streamsets 3.23.0编译安装

原创 CentOS7使用yum安装jdk1.8

原创 Grafana 企业微信报警

原创 flinkcdc binlog到kafka

原创 streamsets连接mysql失败

原创 kafka宕机，无法启动

原创禁止crontab -r

原创使用shell脚本定时删除linux上文件

原创基于Flink的资讯场景实时数仓

原创 adbpg 使用 insert onconflict 覆盖写入数据

原创 jdbc 批量插入greenplum测试

原创 flink

原创 kafka生产者和消费者api

原创流量管理题目

原创 clickhouse第一天

原创 Topn高效

原创任务提交理解

原创 mr内部处理数据流程

原创 MR数据处理流程

原创 hive第3天

原创元数据管理+checkpoint

原创 hdfs读数据流程

原创 HDFS架构nn dn交互，上传数据写数据流程

原创 hive第二天

原创 hive第一天

原创复习hadoop hbase 面试题

原创 hive安装

原创 hbase原理

原创 HBASE-JAVA-API

原创 hbase启动

原创 hbase安装

原创 zookeeper安装部署

空空如也

空空如也