自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 hive行列转换函数

hive-hql行列转换函数

2022-11-08 16:33:13 820 1

原创 sqoop使用报错记录

sqoop问题记录

2022-11-03 10:21:50 816

原创 sparkCore之序列化闭包检测

(1)闭包检测如果算子里面的代码访问了算子外面的代码,那么一定会将算子外的代码传输到算子内执行,那么一定会产生闭包。如果这个外面的数据是对象,那么一定要做序列化,因为这个数据需要在网络中传输。如果闭包使用的变量不能序列化,那么根本就不会执行作业,不会走到RunJob()闭包形成的情况:1、匿名函数用到了外部的变量或者对象,就形成了闭包2、scala中的类传入参数,参数会在这个类的内部形成变量供自己使用所以下面Text在网络中传输的话也需要做序列化 class Text(aaa :String

2022-04-03 14:10:18 497

原创 canal & maxwell

canal & maxwell1、maxwell1.1 在Linux上下载文件包在Linux上下载:curl -sLo - https://github.com/zendesk/maxwell/releases/download/v1.37.0/maxwell-1.25.0.tar.gz \ | tar zxvf - 在Linux上下载:curl -sLo - https://github.com/zendesk/maxwell/releases/downlo

2022-03-14 18:01:33 3206

原创 Flink输入输出&算子&FlinkCDC

Flink版本问题,flink使用Scala时,flink1.12兼容scala2.11,flink1.12不兼容scala2.12一、简介flink是对有界流和无界数据流进行有状态的计算(所谓状态,指的是之前的数据sparkStreaming中只有updatestateByKey有状态,但是flink中任何的算子都可以有状态,可以自己定义)1.1sparkStreaming与flink的区别(1)事件驱动型sparkStreaming是时间驱动,一个批次中假如没有数据依然会从kafka拉取

2022-01-05 16:50:56 2025

原创 hadoop安全模式的问题

今天在使用hbase的时候,遇到如下错误:Mon Aug 03 16:50:35 CST 2020, RpcRetryingCaller{globalStartTime=1596444597229, pause=100, maxAttempts=16}, org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server hado

2020-08-03 20:27:25 631

原创 spark查询phoenix数据

spark查询phoenix数据报错:Caused by: java.sql.SQLException: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled解决办法:...

2020-07-30 17:52:16 527 1

原创 hive on spark

hive on spark 的配置1)解压spark-2.4.5-bin-without-hive.tgz[test@hadoop102 software]$ tar -zxf /opt/software/spark-2.4.5-bin-without-hive.tgz -C /opt/module[test@hadoop102 software]$ mv /opt/module/spark-2.4.5-bin-without-hive /opt/module/spark2)配置SPARK_HOM

2020-07-16 16:21:32 1498 1

原创 redis高级

第三部分redis高级一、击穿:原因1:缓存失效,大量用户访问相同的热点数据在缓存中没有,造成大量用户去访问数据库,数据库承受的压力过大,容易导致数据库崩溃。解决办法是使用分布式锁,大量的用户中只有一个用户能拿到这把锁,让获得锁的请求去访问数据库,其他的请求阻塞或者自旋,直到获得锁请求的用户从数据库取到数据,将数据放到缓存中原因2:空值数据,在数据库中更新了的数据,这个新数据在缓存中写入该值的空值key,比如k-v : user_id null二、雪崩三、redis做缓存,是后边有真实的数据库,

2020-07-16 10:36:59 541

原创 kafka命令行操作

kafka报错:如果出现以下错误:Error while executing topic command : Replication factor: 1 larger than available brokers: 0.先看看自己的kafka版本,我的是3.0版本,和之前版本的命令是不同的,如果按照之前版本的命令操作,即使是对的,可会报出这个错误[wwj@hadoop102 bin]$ ./kafka-topics.sh --create --topic GMALL_START --zookeepe

2020-07-15 23:36:04 236

原创 redis的Java客户端操作

redis第二部分之Java的redis客户端Jedis在Java程序中导入依赖1.用windows中的Eclipse连接虚拟机的Redis的注意事项禁用Linux的防火墙:Linux里执行命令 service iptables stopredis.conf中注释掉bind 127.0.0.1 ,然后 protect-mode no。<dependency> <groupId>redis.clients</groupId> <artif

2020-07-12 22:20:06 167

原创 redis 5 大数据类型

redis第一部分之基础redis介绍Redis是一个开源的key-value存储系统。支持的value类型包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是Redis会周期性的把更新的数

2020-07-12 19:11:07 332

原创 git

git 中的常用命令本地库1.初始化:git init.git文件存的是本地库相关的目录和文件2.设置签名:git config优先级:项目级别和系统级别都有,采用项目级别局部有效:git config user.name “zhangsan”/git config user.email “2042943518@qq.com”全局有效:git config --global3.查看状态:git status4.提交到暂存区:git add big.java从暂存区撤回:git rm -

2020-07-12 07:49:12 116

原创 Phoenix

Phoenix使用场景第一种:单单的访问hbase中的数据,视图映射(只读的,删除视图对hbase中的表无影响)和表映射(通过phoenix的表查hbase中表的数据,删除phoenix表,hbase中的表也会被删除)第二种场景:Phoenix建库建表插入数据,把hbase当存储系统连接客户端配置phoenix需要把phoenix的一个jar包放到hbase的lib目录下并且分发到每一个节点:cp /opt/module/phoenix/phoenix-5.0.0-HBase-2.0-server

2020-06-24 20:52:40 526

原创 HBase预分区

1.自动分区如果不在建表的时候预分区,让region自动分裂,由于分裂的时机以及表的大小可控性查。尤其是在当以时间戳作为rowkey分区,会导致region的热点问题,所以在建表是就对分区进行设置,结合对rowkey的设计是很重要的。下面介绍几个预分区的方式:1.1手动设定预分区create 'test1','info',SPLITS => ['1000','2000','3000','4000']产生了5个分区:插入两条数据:put 'test1','1256','info:name

2020-06-22 20:14:07 941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除