SUN!!-CSDN博客

（1）闭包检测如果算子里面的代码访问了算子外面的代码，那么一定会将算子外的代码传输到算子内执行，那么一定会产生闭包。如果这个外面的数据是对象，那么一定要做序列化，因为这个数据需要在网络中传输。如果闭包使用的变量不能序列化，那么根本就不会执行作业，不会走到RunJob()闭包形成的情况：1、匿名函数用到了外部的变量或者对象，就形成了闭包2、scala中的类传入参数，参数会在这个类的内部形成变量供自己使用所以下面Text在网络中传输的话也需要做序列化 class Text(aaa :String

2022-04-03 14:10:18 500

原创 canal & maxwell

canal & maxwell1、maxwell1.1 在Linux上下载文件包在Linux上下载：curl -sLo - https://github.com/zendesk/maxwell/releases/download/v1.37.0/maxwell-1.25.0.tar.gz \ | tar zxvf - 在Linux上下载：curl -sLo - https://github.com/zendesk/maxwell/releases/downlo

2022-03-14 18:01:33 3211

原创 Flink输入输出&算子&FlinkCDC

Flink版本问题，flink使用Scala时，flink1.12兼容scala2.11,flink1.12不兼容scala2.12一、简介flink是对有界流和无界数据流进行有状态的计算（所谓状态，指的是之前的数据sparkStreaming中只有updatestateByKey有状态，但是flink中任何的算子都可以有状态，可以自己定义）1.1sparkStreaming与flink的区别（1）事件驱动型sparkStreaming是时间驱动,一个批次中假如没有数据依然会从kafka拉取

2022-01-05 16:50:56 2032

原创 hadoop安全模式的问题

今天在使用hbase的时候，遇到如下错误：Mon Aug 03 16:50:35 CST 2020, RpcRetryingCaller{globalStartTime=1596444597229, pause=100, maxAttempts=16}, org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server hado

2020-08-03 20:27:25 641

原创 spark查询phoenix数据

spark查询phoenix数据报错：Caused by: java.sql.SQLException: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled解决办法：...

2020-07-30 17:52:16 559 1

原创 hive on spark

hive on spark 的配置1）解压spark-2.4.5-bin-without-hive.tgz[test@hadoop102 software]$ tar -zxf /opt/software/spark-2.4.5-bin-without-hive.tgz -C /opt/module[test@hadoop102 software]$ mv /opt/module/spark-2.4.5-bin-without-hive /opt/module/spark2）配置SPARK_HOM

2020-07-16 16:21:32 1524 1

原创 redis高级

第三部分redis高级一、击穿：原因1：缓存失效，大量用户访问相同的热点数据在缓存中没有，造成大量用户去访问数据库，数据库承受的压力过大，容易导致数据库崩溃。解决办法是使用分布式锁，大量的用户中只有一个用户能拿到这把锁，让获得锁的请求去访问数据库，其他的请求阻塞或者自旋，直到获得锁请求的用户从数据库取到数据，将数据放到缓存中原因2：空值数据，在数据库中更新了的数据，这个新数据在缓存中写入该值的空值key,比如k-v ： user_id null二、雪崩三、redis做缓存，是后边有真实的数据库，

2020-07-16 10:36:59 546

原创 kafka命令行操作

kafka报错：如果出现以下错误：Error while executing topic command : Replication factor: 1 larger than available brokers: 0.先看看自己的kafka版本，我的是3.0版本，和之前版本的命令是不同的，如果按照之前版本的命令操作，即使是对的，可会报出这个错误[wwj@hadoop102 bin]$ ./kafka-topics.sh --create --topic GMALL_START --zookeepe

2020-07-15 23:36:04 249

原创 redis的Java客户端操作

redis第二部分之Java的redis客户端Jedis在Java程序中导入依赖1.用windows中的Eclipse连接虚拟机的Redis的注意事项禁用Linux的防火墙：Linux里执行命令 service iptables stopredis.conf中注释掉bind 127.0.0.1 ,然后 protect-mode no。<dependency> <groupId>redis.clients</groupId> <artif

2020-07-12 22:20:06 177

原创 redis 5 大数据类型

redis第一部分之基础redis介绍Redis是一个开源的key-value存储系统。支持的value类型包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，Redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是Redis会周期性的把更新的数

2020-07-12 19:11:07 345

原创 git

git 中的常用命令本地库1.初始化：git init.git文件存的是本地库相关的目录和文件2.设置签名：git config优先级：项目级别和系统级别都有，采用项目级别局部有效：git config user.name “zhangsan”/git config user.email “2042943518@qq.com”全局有效:git config --global3.查看状态：git status4.提交到暂存区：git add big.java从暂存区撤回：git rm -

2020-07-12 07:49:12 119

原创 Phoenix

Phoenix使用场景第一种：单单的访问hbase中的数据，视图映射（只读的，删除视图对hbase中的表无影响）和表映射（通过phoenix的表查hbase中表的数据，删除phoenix表，hbase中的表也会被删除）第二种场景：Phoenix建库建表插入数据，把hbase当存储系统连接客户端配置phoenix需要把phoenix的一个jar包放到hbase的lib目录下并且分发到每一个节点：cp /opt/module/phoenix/phoenix-5.0.0-HBase-2.0-server

2020-06-24 20:52:40 533

原创 HBase预分区

1.自动分区如果不在建表的时候预分区，让region自动分裂，由于分裂的时机以及表的大小可控性查。尤其是在当以时间戳作为rowkey分区，会导致region的热点问题，所以在建表是就对分区进行设置，结合对rowkey的设计是很重要的。下面介绍几个预分区的方式：1.1手动设定预分区create 'test1','info',SPLITS => ['1000','2000','3000','4000']产生了5个分区：插入两条数据：put 'test1','1256','info:name

2020-06-22 20:14:07 948

weixin_46386869的博客

原创 hive行列转换函数

原创 sqoop使用报错记录

原创 sparkCore之序列化闭包检测