自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

转载 应用程序参数处理

应用程序参数处理

2022-10-09 13:58:19 609 1

原创 Streamsets 3.23.0编译安装

Streamsets3.23安装使用

2022-09-06 15:32:38 663 3

原创 CentOS7使用yum安装jdk1.8

CentOS7使用yum安装jdk1.8

2022-09-06 15:05:55 736

原创 Grafana 企业微信报警

Grafana 企业微信报警

2022-08-15 15:01:18 1092

原创 flinkcdc binlog到kafka

flinkcdc binlog到kafka

2022-06-30 16:01:20 1350

原创 streamsets连接mysql失败

StreamSets上连接界面报错

2022-06-20 09:36:43 524

原创 kafka宕机,无法启动

kafka宕机

2022-06-17 13:44:58 681

原创 禁止crontab -r

禁用crontab -r

2022-06-09 13:57:22 606 1

原创 使用shell脚本定时删除linux上文件

**举例 **#!/bin/bashfind /root/test/ -mtime +30 -name "*.log" | xargs -i mv {} /root/copy/;解读: find 查找 /root/test/ 指定目录-mtime +30 30天前的(天数可自定义)-name “*.log” 所有.log结尾的文件 | xargs -i mv {} 固定写法 /root/RecycleBin/ 目标目录整句命令的意思:查找/root/test/目录下30天前的所有已.log

2022-05-10 12:12:37 2089

原创 基于Flink的资讯场景实时数仓

基于Flink的资讯场景实时数仓1. 实时数仓介绍1.1.什么是实时数仓1.2.实时数仓技术架构2. 资讯场景介绍与技术架构设计2.1.业务场景2.2.业务目标2.3.技术架构4. 实时数仓搭建4.1.数据采集)1. 实时数仓介绍1.1.什么是实时数仓数据仓库定义:https://en.wikipedia.org/wiki/Data_warehouse,本质是把各种业务系统产生的数据通过一定的方式(数仓构建方法论)统一处理,从而产生更大的业务价值。数据仓库的价值:Successful ent

2022-03-26 17:02:28 1550

原创 adbpg 使用 insert onconflict 覆盖写入数据

在AnalyticDB PostgreSQL版数据库中,如何使用INSERT ON CONFLICT语法覆盖写入数据

2022-02-08 14:22:05 1628

原创 jdbc 批量插入greenplum测试

一次一次的插入 十万条数据总耗时316543毫秒 try { Class.forName("org.postgresql.Driver"); connection = DriverManager.getConnection(url, user, passWord); ps = connection.prepareStatement(insertSql); long oddTime = System.curr

2022-01-14 10:56:02 1018

原创 flink

flink1Flink的特点2Flink架构体系简介3Flink环境搭建架构说明(standalone模式)搭建步骤启动flink集群和检测提交Flink任务4Flink编程入门DataFlow编程模型实时WordCountflink-javapom.xmlapiflink-scalapom.xmlapi1Flink的特点批流统一支持高吞吐、低延迟、高性能的流处支持带有事件时间的窗口(Window)操作支持有状态计算的Exactly-once语义支持高度灵活的窗口(Window)操作,支持基于

2021-07-05 22:11:14 835 2

原创 kafka生产者和消费者api

kafka生产者和消费者api生产者api消费者生产者apilinux上启动一个命令行消费者:/opt/apps/kafka_2.12-2.6.2/bin/kafka-console-consumer.sh–bootstrap-server centos01:9092,centos02:9092,centos03:9092 --topic wordcount --from-beginningobject ProducerDemo { def main(args: Array[String

2021-06-22 22:28:52 178

原创 流量管理题目

流量管理方法一:DLS流量管理方法二:sql流量管理uid,start_time,end_time,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:

2021-06-18 11:20:52 184

原创 clickhouse第一天

clickhouseclickhouse-部署1.单节点部署1) 信息步骤2) CK目录介绍3) 启动启动服务clickhouse基础入门数据类型时间类型clickhouse-部署1.单节点部署1) 信息步骤安装curl工具yum install -y curl添加clickhouse的yum镜像curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo b

2021-06-17 09:46:36 617

原创 Topn高效

将指定的类放在key上(序列化+排序规则)重写分区规则重写分组器

2021-06-17 09:46:15 61

原创 任务提交理解

conf.job.jar提交给resourcemanager,resourcemanager接受job,分配jobid,返回客户端分完id后会有一个MrApplication_001的对象,对象会找Application要一个运算资源,之后初始化代表自己的app对象。app从初始程序拿jar包,配置文件,输入路径,输出路劲,计算切片的事情。之后算好启动几个task(比如启动3个MapperTask,2个reducetask)开始run,向resourcemanager 申请资源,此时就可以看到两个g的

2021-06-17 09:45:49 115

原创 mr内部处理数据流程

根据输入路径中的文件个数和大小计算任务切片输出看k,v调用map方法,判断是否又k,v,有几个实行几次在map处理数据,在写出数据到缓冲区MapOutBuffer,里面进行hashcode,但可能时负的 所以进入HashPartitoner进行处理缓存到数组中 ,环形数组,进行快排数组不写满,到80%,溢出器溢出,按分区编号溢出(0号区,1号区),至少溢出一次将溢出的相同的区号合并(Merger归并排序)启动reducer0和1, map端提供了shuffle服务分发,reducer通过F.

2021-06-17 09:45:25 135

原创 MR数据处理流程

MR数据处理流程4台机器作为运算资源的机器来处理数据,将处理的数据进行任务划分,根据数据的大小划分4机器并行处理数据输出数据任务划分,在分区器内对数据的hascode进行取模,有几台机器就进行几次取模,根据hascode分给运算机器进行处理最后保存最终结果Map阶段主要是将待处理的大量数据进行任务划分,并行处理数据通过分区器进行规则划分,将相同的单词分配到一个任务上[分区中]合并reducer端:并行计算 分别处理数据自己分区的数据进行全局合并并得到最后结果保存在介质中(HDFS)..

2021-06-17 09:45:02 889

原创 hive第3天

hive第3天窗口函数laglead编号函数练习练习 打地鼠动态分区表分桶表复合数据类型json数据存储格式窗口函数over() 在…之上…聚合函数() over() 指定窗口的大小select collect_set(ct) from tb_order;-- 每个人 人分租 组内聚合 select name,collect_set(ct) from tb_order group by name;select name,sort_array(collect_set(ct))from

2021-06-17 09:44:48 67

原创 元数据管理+checkpoint

客户将数据存在内存中 对其进行修改 和查看优点:操作方便,处理快缺点:容易丢失为了防止丢失,将数据持久化(序列化)到磁盘,每次操作都要序列化,频繁的对象–IO—>磁盘,占用资源影响性能。所以 定时序列化,1H序列化一次,但1H以内的数据不能保存安全所以及时存写 客户操作日志...

2021-06-17 09:44:31 122

原创 hdfs读数据流程

读数据流程namenode记录元数据信息 数据的实际位置虚拟目录----->实际位置/data/a,txt 3 300M(虚拟位置)a.txt_block0 0 128M [linux001 002 004]a.txt_block1 128M 128M [001 002 003]a.txt_block2 256M 44M [03 04 06]客户端请求namenode读取/data/a.txtnamenode返回数据的元信息选择一个近的节点请求下载第一个数据块解析 存

2021-06-17 09:42:43 113

原创 HDFS架构nn dn交互,上传数据写数据流程

HDFS架构准备工作:三台机器(datanode)注册并汇报储存资源,主机器每三秒心跳感应客服端请求namenode存储数据到集群校验返回存储位置存储默认三个副本 物理切块增加从节点 注册扩容1.接受汇报 2.管理集群(节点列表,每个节点的存储资源)...

2021-06-16 22:04:52 273

原创 hive第二天

hive第二天静态分区二级分区练习1:查询语言练习01case when练习02 case when静态分区分区字段一个, 一级分区 , 分区字段有多个为多级分区二级分区分区字段为两个create table tb_partition( id int , name string , ct string )partitioned by (y string , m string) -- 二级分区 row format delimited fields termina

2021-06-16 22:04:28 135

原创 hive第一天

hive1.准备1.1本地连接1.2远程连接方式1.3入门2.DDL2.1 数据库2.2表操作2.2.0 数据类型2.2.1建表2.2.1.1 普通表2.2.1.2 外部表 / 内部表2.2.1.3 分区表静态分区3 DML3.1数据导入方式3.1.1 hdfs dfs -put/mv data.data /表目录下3.1.2 location 指定数据的位置3.1.3 load 命令3.1.4 create .. as.. selecte ;3.1.5 insert 数据3.1.6 覆盖导入3.1

2021-06-16 22:04:17 613

原创 复习hadoop hbase 面试题

没有标题你会用MR写一个求分组topn的任务吗?MR如何实现二次排序Yarnyarn中有那些资源调度策略?分别有什么特点?你会用MR写一个求分组topn的任务吗?MR如何实现二次排序就是自定义排序:key上写自定义compareTo方法,自定义partitioner,自定义groupingcompararterYarnyarn中有那些资源调度策略?分别有什么特点?FIFO先进先出Capacity scheduler(默认配置的调度策略)资源整体可以在逻辑上划分成多个资源队列!然后,每个队

2021-06-16 22:04:05 135

原创 hive安装

hive安装mysql命令复习mysql准备停止hdfs上传jar解压配置mysql命令复习systemctl stop/start/status/disable/enable firewalld/mysqldservice mysqld status /start /stop查看网络端口是否被占用nenstat -nltp | grep 3306mysql准备mysql -uroot -p 登录提示密码简单,则输入mysql>set global validate_pa

2021-06-16 22:03:31 98

原创 hbase原理

原理(思想)写数据流程写数据流程客户端获取zookeeper的地址,获取hbase连接对象put ‘tb_a’,‘rk001’,‘cf:name’,‘zss’ 请求master(管理集群)客户端请求zookeeper,而获取meta元数据表的位置客户端请求管理meta表的region server机器,下载meta表 存储在本地(缓存)解析meta表,获取表的行数据虽在的region server,去请求region请求egion server写数据先将数据写入到内存中,到一定的阈值的

2021-06-16 22:03:07 420

原创 HBASE-JAVA-API

java-apiget数据展示数据工具scan数据删除数据创建预分region表修改表结构快照get数据private static void getOneROw(Table tb_a) throws IOException { Table tb_a = HbaseUtil.getTable("tb_a"); // get 获取 1 行数据 Get get = new Get("rk001".getBytes()); // 一行数据 多

2021-06-16 22:02:55 317

原创 hbase启动

1.启动方式1 bin/hbase-daemon.sh start master bin/hbase-daemon.sh start regionserver提示:如果集群之间的节点时间不同步,会导致regionserver无法启动,修复提示:2.启动方式2bin/start-hbase.sh 一键启动页面访问启动成功后,可以通过“http://linux001:16010/”的方式来访问HBase管理页面一键启动配置环境变量vi /etc/profile加上export

2021-06-16 22:02:43 581

原创 hbase安装

安装环境准备3.1.2.上传解压hbase配置进入 hbase-env.sh ***注意放开注释***进入hbase-site.xml修改内容:regionservers 配置 启动集群中的Regionserver机器集群分发环境准备3.1.1.1.Zookeeper集群启动zk.sh start 全部启动3.1.1.2.HDFS正常启动start-dfs.sh时间同步交互窗口 date 查看时间是否同步如果未同步手动的设置时间 date -s “2020-01-08 17:1

2021-06-16 22:01:43 60

原创 zookeeper安装部署

zookeeper安装部署上传安装包并解压添加zkData文件夹上传安装包并解压rz 上传在apps下解压 tar -zxf zookeeper-3.4.6.tar.gz -C /opt/apps/添加zkData文件夹在bin conf 同级下创建zkData文件夹mkdir zkData在其下创建myid文件 输入1echo 1 > myid...

2021-06-16 22:00:39 239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除