Ajie_Joker-CSDN博客

原创 spark

spark1、环境搭建local本地测试需要本地安装hadoopstandalone使用spark自带资源管理框架Driver向Master申请资源yarn使用hadoop的yarn作为资源管理框架提交任务 Driver去ResourceManasger中申请资源通过实现applicationMaster接口往yarn里面提交任务yarn-client在本地打印运行日志一般用于上线前测试Driver在本地（提交任务的节点）启动D

2021-08-22 23:10:23 250 1

原创 saprk streaming

saprk streaming1、实时计算spark是微批处理，每隔一段时间处理一次flink 实时处理，每一条数据都会处理2、将接收过来的数据，封装成一个rdd，执行rdd的计算3、有状态算子updatastatebykey需要开启checkpoint，需要保存之前计算的结果reducebykeyandwindow统计最近一段时间的数据，每隔一段时间统计一次优化版本，需要一个减的函数4、sql on stream通过sparksession创建DF，在流上面写sql5、s

2021-08-22 23:09:24 197

原创 Redis

Redis特点内存数据库—快k-v格式，不支持sql也可以对数据进行持久化可以搭建分布式默认分16个库，没有表的概念缓存，消息队列value数据类型String, 位图列表-- 链表hash k-vsetsortSet常用命令set getlpush rpush lpop rpophset hmset hget hgetAllsaddkeys *save bgsaveflushdbjava api1、创建redis连接，new Jedis ne

2021-08-22 23:08:17 176

原创 mysql

mysqlSQL的生命周期应用服务器与数据库服务器建立一个连接数据库进程拿到请求sql解析并生成执行计划，执行读取数据到内存并进行逻辑处理通过步骤一的连接，发送结果到客户端关掉连接，释放资源SQL 约束NOT NULL: 用于控制字段的内容一定不能为空（NULL）。UNIQUE: 控件字段内容不能重复，一个表允许有多个 Unique 约束。PRIMARY KEY: 也是用于控件字段内容不能重复，但它在一个表只允许出现一个。FOREIGN KEY: 用于预防破坏表之间连接的动作，也能防

2021-08-22 23:07:47 249

原创 Hive随笔

Hive1、概述hive是建立在Hadoop基础上的数据仓库基础架构。可以将结构化数据文件映射成一张表，提供类sql查询功能（将hql转成MapReduce任务），对其中的数据进行分析和管理2、hive的工作方式将存放在hive中的数据映射成一张表，提供类sql语句的操作方式，Hive SQL实际上是先被SQL解析器解析成抽象语法树AST Tree，然后被Hive框架解析成一个MapReduce可执行的计划交给hadoop集群处理，结果也会输出在hdfs之中。（必须是结构化的数据）。在存储的时候hi

2021-08-22 23:04:46 412

原创 Hbase

Hbase1、特性（1）高可靠、高性能、面向列、可伸缩的分布式存储系统（2） HDFS作为其文件存储系统, MapReduce来处理 Hbase中的海量数据,Zookeeper作为其分布式协同服务（3）主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）2、架构（1）HMaster1、负责表的增删改操作2、负责分配region给regionServer3、负责RegionServer的负载均衡4、负责重新分配失效的Region5、垃圾回收（2）RegionServer

2021-08-22 23:03:46 144

原创 hadoop

hadoopMapReduce在Yarn上执行流程1、ResourceManager会为每一个Application在NodeManager中申请一个Container用于启动ApplicationMaster2、ApplicationMaster会为每一个task申请一个Container用于执行3、task执行完后，NodeManager会回收对应的ContainerCombiner：预聚合，shuffle过程优化，发生在map端的reduce操作减少map

2021-08-22 23:03:09 126

原创 flink

flink1、概述flink是一个计算框架和分布式处理引擎，用于对有界流和无界流进行有状态计算dataset API对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python1datastream api对数据流进行流处理操作，将流式的数据抽象成分布式的数据流，用户可以方便地对分布式数据流进行各种操作，支持Java和Scalatable api对结构化数据进行查询操

2021-08-22 22:57:48 334

原创 KafKa随笔

Kafka1、概述kafka是一个分布式、分区的、多副本的、多订阅者的消息发布订阅系统（分布式MQ系统），可以用于搜索日志，监控日志，访问日志等kafka对消息保存是根据Topic进行归类，kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息2、消息队列的应用场景1、系统之间解耦合耦合的状态表示当你实现某个功能的时候，是直接接入当前接口，而

2021-08-22 22:53:35 96

原创 Hadoop的高可用模式

Hadoop的高可用模式（个人理解）hadoop的高可用模式就是实现hadoop的主从，主节点的namenode挂掉以后，从节点的namenode可以直接顶替master继续使用使用三台虚拟机，名称分别为 master node1 node21.配置免密3、免密钥 (远程执行命令)在两个主节点生成密钥文件master和node1都操作 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa ssh-copy-id ip master-->master,

2021-08-13 23:07:38 512

原创 hbase 和spark 的依赖冲突

导包出现冲突hbase 和spark 的依赖冲突hbase 和spark 的依赖冲突出现情况： hbase里面的依赖和spark-sql里面的依赖相同但是两个版本号不相同，此时会出现依赖冲突解决方式<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId>

2021-08-13 23:06:54 373

原创 Hbase 启动报错java.lang.NullPointerException

Hbase 启动报错java.lang.NullPointerException启动hbase后进入http://master:16010/master-status端口发现报错，java.lang.NullPointerExceptionat org.apache.hadoop.hbase.tmpl.master.BackupMasterStatusTmplImpl.renderNoFlush(BackupMasterStatusTmplImpl.java:59)at org.apache.had

2021-06-28 17:54:00 2101

weixin_45118947的博客