自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 atlas已存在表关联新表关系不创建

安装完atlas后执行create table xxas select xx 语句测试创建血缘关系图,语句中使用的表都是刚创建的血缘关系会创建出来,过几分钟再用同样的语句创建另一张表,查看atlas发现没有血缘关系,使用其它已存在的表同样出现这个问题。查看atlas日志发现后台报唯一约束异常,查看代码发现atlas 会缓存刚创建的表,超时就清掉缓存,缓存没有的表就认为是新表唯一的,构造关系数据写入janusgraph,就触发了janusgraph唯一性约束检查,写入失败。觉得这种程序应该有配置控制存...

2020-10-22 18:07:55 47

原创 开源机器学习平台tipdm

TipDM建模平台 tipdm开源的python机器学习建模平台,用户通过拖拉就可以实现模型开发。项目结构backend :为java后台服务代码frontedn :为vue js前端代码mock-oauth-server:为java认证服务代码主要分析backend后台服务代码,典型的java spring mvc web项目,项目结构如下:framework-common:公共代码,主要为工具类,spring相关公用类framework-model: 实体..

2020-10-19 19:54:15 83

原创 flink读写hbase

开发flink读写hbase的程序时遇到总是连接本地localhost:2181 zookeeper的异常,demo如下:代码总明明配置了zookeeper地址,执行时却总连接本地,跟踪代码发现,其创建连接并没有使用该配置,而是默认读取类路径下的hbase-site.xml配置文件,所以添加hbase配置文件,运行正常。以下是平时flink测试时使用的依赖,供参考。<properties> <spark.version>2.2.0</spark.ve.

2020-07-16 14:35:24 252

原创 sqoop error xxx is greater than xxx

sqoop导数失败,异常日志:java.io.IOException: 0.00149538554284945409038360094760876373868438891233028512477697236907921983118594701374880207023210232364363037049770355224609375 is greater than 0.001281757140...

2020-05-08 21:45:52 102

原创 flink1.10 提交java sql ddl程序异常

flink1.10对ddl这块支持比较完善,最近用java写了个ddl kafka的demo测试。在ide本地环境中执行没有问题,但将任务打包提交的flink 集群时提交就报错,无法执行,异常如下:看异常好像是ddl写错了,本地运行正常,说明没有问题。使用flink sql-client客户端测试报一样的错,flink lib下没有对应的包,将包放到lib下,使用sql-client执行...

2020-03-17 20:42:15 513 1

原创 hbase Could not seek StoreFileScanner[HFileScanner for reader异常

最近hbase查询出现异常,hbase监控都正常,异常如下:hbase(main):003:0> get 'w:t','xxxx'COLUMN CELL ...

2020-03-10 21:47:34 401

原创 flink table 使用Kafka Connector处理复杂json

flink kafka connector处理复杂json字符串,直接上代码。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); EnvironmentSettings bsSettings = EnvironmentSettings.newInsta...

2019-12-30 18:15:12 899 2

原创 hive metastore server Failed to sync requested HMS notifications up to the event ID xxxxx

最近遇到hive执行create,drop table语句时出现延时其它语句正常,平时秒级现在都需要200s才完成。经过排查发现有个用户使用手机号做动态分区字段,导致一下有上百万分区写入,hive metastore server出现问题,线程数飙升至1k多,内存升高。将任务停止后线程数下降,内存下降恢复正常水平,但是create,drop table还是不正常耗时200s才执行完成。sen...

2019-12-20 09:00:18 434

原创 flink table 使用Kafka Connector处理嵌套json

使用flink table api 连接kafka 处理json类型数据,单层json处理比较简单,官方或网上都有很多例子,处理嵌套的json数据没什么介绍。处理嵌套json数据主要是schema定义。 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(...

2019-12-17 18:19:16 1126 3

原创 flink 广播变量

使用过spark的人都知道广播变量这个概念。广播变量相当于一个共享变量,将一个小数据集复制分发到每个task,task直接从本地读取。flink中有两种广播变量,一种静态的广播变量,一种实时动态的广播变量。 静态广播变量示例: 使用场景如: 黑名单判断,将黑名单广播出去进行数据匹配。public class FlinkBroadcast2 { pub...

2019-11-05 18:31:24 528

原创 flink异步IO

使用flink进行数据处理时,我们经常会需要跟外部系统交换,比如查询mysql。每一条数据都访问一次外部系统,等待响应,再往下执行,这种等待会占用很大一部分数据处理时间。为此flink提供了异步IO API,异步访问外部系统,并行处理,同时响应,节省访问等待时间。采用flink做实时数仓基本会使用异步io api去join维表。下面通过一个简单的demo介绍下异步IO API...

2019-11-05 18:31:08 232

原创 hue hive sql查询下载结果异常

hue hive sql查询下载结果出现如下异常,给官方提了个issues说后面的新版本修复了,看了下源码那段确实修改了。通过查看hue后台日志找到异常代码。我用的是cdh5.14.4解决方法,修改/opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/lib/export_csvxls.py python文件如图:...

2019-10-30 09:05:58 284

原创 hive 异常-NPE org.apache.hadoop.hive.ql.exec.vector.expressions.CuckooSe.rehash

hive执行 sql 语句 select * from table where c in (....) 出现异常,异常日志如下: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row at...

2019-08-28 22:04:43 531

原创 hue负载均衡

Hue是开源的大数据工作平台,集成了hive,impala,spark,hadoop,sentry ,oozie,hbase等常用大数据服务,基本能满足绝大部分公司的业务日常使用。作为公司对业务开放的开发平台必须稳定,高性能。我们使用haproxy作为负载均衡器,其默认就支持tcp,http协议负载,其它服务使用haproxy 四层负载,统一负载引擎,方便维护管理。1. 前面已安装ha...

2019-08-19 18:32:06 504

原创 cdh集群impala 负载均衡

impala是MPP查询引擎,可以实现秒级响应,并发性能受机器数量,内存影响。impala 与hive共享元数据,hive表可以无缝切换到impala查询(impala不支持hive json, 3.1版本开始支持orc文件格式,建议还是使用parquet文件格式)。 impala 启用负载均衡: 1. 安装haproxy yum insta...

2019-08-15 09:09:22 959

原创 cdh集群hive 启用HA

hive 在离线分析,数仓中是最常用的工具,业务人员不需要熟悉mr,编程基础就可以通过sql操作数据。hive 的性能及稳定性在生产中必须保证。hive可以通过HAPROXY进行多节点负载均衡来达到目的。 hive Metastore 开启HA 1. 进入hive服务配置, 搜索DBTokenStore,选择 org.apache.hadoop.hive.thrif...

2019-08-12 22:06:58 1002

原创 cdh集群oozie启用HA

cdh集群oozie调度器通过 cloudera manager 启用HA。oozie启用HA,需要先安装负载均衡器,我使用的是haproxy。1.安装harpoxyyum install -y haproxy2. 在oozie 操作界面选择启用HA3.选择需要安装oozie角色实例的节点4.配置负载均衡器地址,可以在装完后再配置5. 按照向导执行完成6....

2019-08-09 21:45:26 899 1

原创 cdh集群sentry 启用HA

cdh集群sentry主用用来进行hive数据权限认证,sentry服务失败后会影响访问hive库的任务。sentry ha的功能是在cdh5.13之后才有的。开启sentry HA 1. 进入sentry 操作,选择启用HA 2. 选择主机安装另一个sentry实例3.根据向导,执行完成...

2019-08-09 21:45:04 422 1

原创 cdh集群resource manager启用 HA

resource manager关系整个集群的任务运行,在生产上必须保证高可靠。resource manager和hdfs namenode的一样自身实现了HA,只需开启,出现异常时会自动切换到正常的resourcemanger。通过cloudera manger管理界面启用resource manager HA。1. 在yarn界面操作,选择启用HA 2..选择另一个节点...

2019-08-09 21:44:54 481

原创 cdh集群hdfs namenode HA

hdfs namenode的健康关系整个集群是否能正常运行,生产为了集群的高可用必须开启HA。社区版需要手动修改配置文件进行开启。使用cloudera manager只需在界面根据向导执行即可。操作步骤:1. 在hdfs - 操作 -选择启用HA2. 填写nameservice名称3.选择另外一台服务器安装namenode ,三个或5个节点安装journalnod...

2019-08-09 21:44:29 637

原创 flink kafka自定义反序列化

flink kafka实时流计算时,通常会有将多个topic数据接入计算,而这时通常需要区分消息属于哪个topic进行针对处理。spark默认就将topic信息同kafka 消息一起提供出来了,flink 提供的SimpleStringSchema反序列化默认只将消息输出,topic信息没有,JSONKeyValueDeserializationSchema类提供了topic消息,要...

2019-08-01 21:26:07 2867 1

原创 hue shell执行impala shell

在hue shell中执行impala shell ,配置如下:impala.sh 脚本如下:#!/bin/bashimpala-shell -i 192.168.15.171:21000 -q "show tables;"运行报错如下:根据错误日志提示,impala shell脚本默认会在/home下设置工作目录,而/home没有权限。修改脚本:#!/bin...

2019-07-26 00:23:06 360

原创 spark streaming error -- java.lang.AbstractMethodError

spark streaming程序提交出现如下异常:java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99) at org.apache.spark.sql.kafka010.KafkaSourceProvider$...

2019-07-16 18:12:00 655

原创 flink jdbc连接器

flink提供很多访问其他数据源的连接器,访问其他第三方数据源变得简单高效。下面就是flink提供的一些连接器,使用时只需引入需要的包。在使用flink处理数据后,我们经常会将结果写入数据库,供其它业务使用。 private static String driverClass = "com.mysql.jdbc.Driver"; private static...

2019-07-13 21:33:41 5172 2

原创 ssm项目大事务导致数据异常

在使用SSM框架时都会开启spring声明式事务,只需在方法上加上@Transaction,spring自动帮你管理事物提交回滚,非常简单方便。不注意也会带来意外的惊喜,大家开发时都在方法上加上事务注解,当一个方法需要调用其它事务方法,层层调用,形成一个大的处理逻辑方法,所有事务方法最终都加入第一个事务,这时处理逻辑中某事务方法又需要查询前面事务方法产生的数据时,问题就出现了。某次某项...

2019-07-09 22:28:17 68

原创 cdh集群安装--host配置问题导致agent失败

遇到几次有人在安装cdh的时候将hostname 配置成了带下划线 "_",而导致agent安装失败,无法启动agent ,/var/log下无异常日志。异常配置如下:192.168.1.1 cluster_01.example.com cluster_01host 采用全域名标准配置,不要使用大写和 "_"下划线示例:192.168.1.1 cluster-01.example....

2019-07-05 18:29:28 650

原创 kafka2.x重复消费问题

kafka从0.8升级到kafka2.x后所有客户端代码也需要全部升级。kafka消费程序使用2.x java api重写后发现出现重复消费数据的情况。代码参照官方demo写的如下: consumer.subscribe(Collections.singletonList(this.topic)); while(true){ ConsumerRecord...

2019-07-04 18:23:23 785

原创 spring boot mybatis整合

这几年微服务兴起,dubbo,spring boot,spring cloud,在java面试中基本会被问到。现在因工作原因完整的开发java项目少,抽空写了个spring boot demo。spring boot相比于spring 减少了xml配置文件,使用上精简了,内置tomcat,可以以jar方式启动,实际上还是spring那套。1.在spring网站,生成spring boot项目...

2019-07-03 21:22:46 37

原创 spark drools集成开发

flink 有cep复杂事件处理库,spark中没有cep处理库,如何在spark中实现cep复杂事件处理? 业界普遍使用开源的drools规则引擎集成去处理,cloudera官方博客就有spark 集成drools实现cep处理能力。项目结构:pom 文件依赖配置:<properties> <spark.version>...

2019-07-03 21:16:27 985 2

原创 flink drools开发

flink本身已有cep引擎,用户可以直接使用。本文介绍下flink drools集成开发,实现规则代码分离。项目代码结构如下:pom maven配置: <properties> <!--<drools.version>7.23.0.Final</drools.version>--> <d...

2019-07-03 20:51:39 2878 5

原创 flink 编程模型

在大数据开发领域,每个大数据开发框架都有着自己固定的编程模型。用户只有按照这套流程实现自己的业务逻辑即可。flink也有着自己固定的开发模式,流,批开发模式一样,只是调用的类不一样,社区也在计划统一api。flink支持java,scala,python语言开发,flink开发的大多少都是使用java。java api 在 org.apache.flink.api.java.*,scala a...

2019-06-26 21:30:07 55

原创 hue禁用下载

在日常工作中使用hue时,为了数据安全需要禁止用户下载数据,这就需要禁用页面下载按钮。使用管理员账号登录Cloudera Manager的WEB控制台,进入Hue服务的配置项搜索Hue的“hue_safety_valve.ini 的 Hue 服务高级配置代码段(安全阀)”配置项增加如下配置:[desktop] enable_download=false5.13版本后才支持此配置。在...

2019-06-25 20:40:23 571 3

原创 flink cep api介绍

flink cep 复杂事件处理引擎,可以实时分析数据流中检查分析出符合要求的事件,flink目前sql 也支持cep了,阿里云上已有相关功能开放使用。flink在上层api上sql 的功能越来越强了,这是它优于其它流式计算框架的地方,降低了使用门槛。应用场景:智能营销,金融风控,异常检测等。目前主流的CEP工具有Esper,drools和商业版的microsoft streamins...

2019-06-21 22:29:15 572 1

原创 Kudu master 迁移

kudu集群运行避免不了服务器硬件,软件异常导致宕机。如果宕机的是master节点且服务器不能启动如何恢复master?下面介绍下如何在服务器宕机的情况下迁移master服务。1. 将每个活着的master uuid 记录下来 命令: sudo -u kudu kudu fs dump uuid --fs_wal_dir=<master_wal_dir&gt...

2019-06-19 20:26:58 476

原创 kudu服务器磁盘更换

kudu集群服务器由于磁盘损坏需要更换磁盘如何更换? 像hadoop集群一般都是停掉服务,关机,换盘,重启服务。而kudu集群换盘操作确有着区别。kudu更换单个盘重启服务是会报错的,需要执行命令初始化加入,才能启动恢复正常。建议kudu 单台服务器磁盘容量不要太大,官方建议为8TB。操作步骤如下: 1.更换新磁盘,格式化新盘 2.停止该节点的tablet ser...

2019-06-19 20:26:40 890

原创 kudu 添加master

kudu 添加master节点不像其他大数据组件直接添加即可,操作比较复杂,步骤如下:1.kudu添加master节点,集群不可用2.Master节点数为奇数3.在已存在master节点查看wal和数据目录,rpc_bind_addresses 端口,默认7051 sudo -u kudu kudu fs dump uuid --fs_wal_dir=<mast...

2019-06-18 18:32:21 1905

原创 livy_zeppelin_cdh_csd_parcels项目编译安装的zeppelin重启配置丢失

前面介绍过通过https://github.com/alexjbush/livy_zeppelin_cdh_csd_parcels编译安装zeppelin。zeppelin安装完,配置用户角色,新建spark任务运行,一切看似都很完美。某天要修改个配置重启zeppelin登录发现以前所有配置都丢失了,又重新配上,如此反复让人很崩溃。排查丢失原因,只有在重启后才会丢失,可能是重启命令执行了某项...

2019-06-14 23:09:01 147

原创 Spark Structured Streaming 实时解析mr 任务

Structured Streaming 是spark2.x后引入的实时计算框架。spark一直以来都是以微批来处理数据的,一直做不到毫秒级的实时处理,structured streaming最开始引入时也是用的微批处理数据,spark2.3后面引入了一个新的处理模式真正实现了实时计算,可以实现毫秒级的处理速度。structured streaming 实现了exactly-once ,...

2019-06-13 21:07:39 299

原创 hive MSCK 修复分区

在日常工作中会遇到基于某种原因hive 表有很多历史数据按目录存放但并没有添加到hive表中,用户需要历史数据需重新修复添加分区,命令如下:MSCK REPAIR TABLE table_name;为了让 MSCK 命令工作,分区的目录名必须是 /partition_name=partition_value/结构的,否则将无法添加分区。这时候你必须使用add partition命令了...

2019-06-12 22:14:48 1931

原创 自研大数据分析平台任务提交方式

大部分有实力的公司大数据平台发展到一定阶段,都会想着在大数据平台上做一层整合开发一个统一的对外服务平台,降低用户的使用门槛,提高开发效率。要做一个大数据服务平台对平台研发人员的能力有着较高的要求,目前这块做的好的都是一些大厂。今天我们简单谈下自研大数据分析平台任务提交方式:1. 使用服务自带的shell 命令提交。这是大多数项目使用的方法,简单,高效,大数据平台软件升级自兼容。开源项目有...

2019-06-10 21:34:24 134

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除