kevin_wf-CSDN博客

原创 kafka2.x重复消费问题

kafka从0.8升级到kafka2.x后所有客户端代码也需要全部升级。kafka消费程序使用2.x java api重写后发现出现重复消费数据的情况。代码参照官方demo写的如下： consumer.subscribe(Collections.singletonList(this.topic)); while(true){ ConsumerRecord...

2019-07-04 18:23:23 1122

这几年微服务兴起，dubbo，spring boot，spring cloud，在java面试中基本会被问到。现在因工作原因完整的开发java项目少，抽空写了个spring boot demo。spring boot相比于spring 减少了xml配置文件，使用上精简了，内置tomcat，可以以jar方式启动，实际上还是spring那套。1.在spring网站，生成spring boot项目...

2019-07-03 21:22:46 131

原创 spark drools集成开发

flink 有cep复杂事件处理库，spark中没有cep处理库，如何在spark中实现cep复杂事件处理？业界普遍使用开源的drools规则引擎集成去处理，cloudera官方博客就有spark 集成drools实现cep处理能力。项目结构：pom 文件依赖配置：<properties> <spark.version>...

2019-07-03 21:16:27 2547 3

原创 flink drools开发

flink本身已有cep引擎，用户可以直接使用。本文介绍下flink drools集成开发，实现规则代码分离。项目代码结构如下:pom maven配置： <properties>  <d...

2019-07-03 20:51:39 4579 5

原创 flink 编程模型

在大数据开发领域，每个大数据开发框架都有着自己固定的编程模型。用户只有按照这套流程实现自己的业务逻辑即可。flink也有着自己固定的开发模式，流，批开发模式一样，只是调用的类不一样，社区也在计划统一api。flink支持java,scala,python语言开发，flink开发的大多少都是使用java。java api 在 org.apache.flink.api.java.*，scala a...

2019-06-26 21:30:07 209

原创 hue禁用下载

在日常工作中使用hue时，为了数据安全需要禁止用户下载数据，这就需要禁用页面下载按钮。使用管理员账号登录Cloudera Manager的WEB控制台，进入Hue服务的配置项搜索Hue的“hue_safety_valve.ini 的 Hue 服务高级配置代码段（安全阀）”配置项增加如下配置：[desktop] enable_download=false5.13版本后才支持此配置。在...

2019-06-25 20:40:23 1185 3

原创 flink cep api介绍

flink cep 复杂事件处理引擎，可以实时分析数据流中检查分析出符合要求的事件，flink目前sql 也支持cep了，阿里云上已有相关功能开放使用。flink在上层api上sql 的功能越来越强了，这是它优于其它流式计算框架的地方，降低了使用门槛。应用场景:智能营销，金融风控，异常检测等。目前主流的CEP工具有Esper，drools和商业版的microsoft streamins...

2019-06-21 22:29:15 1014 1

原创 Kudu master 迁移

kudu集群运行避免不了服务器硬件，软件异常导致宕机。如果宕机的是master节点且服务器不能启动如何恢复master？下面介绍下如何在服务器宕机的情况下迁移master服务。1. 将每个活着的master uuid 记录下来命令： sudo -u kudu kudu fs dump uuid --fs_wal_dir=<master_wal_dir&gt...

2019-06-19 20:26:58 1125

原创 kudu服务器磁盘更换

kudu集群服务器由于磁盘损坏需要更换磁盘如何更换？像hadoop集群一般都是停掉服务，关机，换盘，重启服务。而kudu集群换盘操作确有着区别。kudu更换单个盘重启服务是会报错的，需要执行命令初始化加入，才能启动恢复正常。建议kudu 单台服务器磁盘容量不要太大，官方建议为8TB。操作步骤如下： 1.更换新磁盘，格式化新盘 2.停止该节点的tablet ser...

2019-06-19 20:26:40 2749

原创 kudu 添加master

kudu 添加master节点不像其他大数据组件直接添加即可，操作比较复杂，步骤如下：1.kudu添加master节点，集群不可用2.Master节点数为奇数3.在已存在master节点查看wal和数据目录，rpc_bind_addresses 端口，默认7051 sudo -u kudu kudu fs dump uuid --fs_wal_dir=<mast...

2019-06-18 18:32:21 3346

原创 livy_zeppelin_cdh_csd_parcels项目编译安装的zeppelin重启配置丢失

前面介绍过通过https://github.com/alexjbush/livy_zeppelin_cdh_csd_parcels编译安装zeppelin。zeppelin安装完，配置用户角色，新建spark任务运行，一切看似都很完美。某天要修改个配置重启zeppelin登录发现以前所有配置都丢失了，又重新配上，如此反复让人很崩溃。排查丢失原因，只有在重启后才会丢失，可能是重启命令执行了某项...

2019-06-14 23:09:01 573

原创 Spark Structured Streaming 实时解析mr 任务

Structured Streaming 是spark2.x后引入的实时计算框架。spark一直以来都是以微批来处理数据的，一直做不到毫秒级的实时处理，structured streaming最开始引入时也是用的微批处理数据，spark2.3后面引入了一个新的处理模式真正实现了实时计算，可以实现毫秒级的处理速度。structured streaming 实现了exactly-once ，...

2019-06-13 21:07:39 562

原创 hive MSCK 修复分区

在日常工作中会遇到基于某种原因hive 表有很多历史数据按目录存放但并没有添加到hive表中，用户需要历史数据需重新修复添加分区，命令如下：MSCK REPAIR TABLE table_name;为了让 MSCK 命令工作，分区的目录名必须是 /partition_name=partition_value/结构的，否则将无法添加分区。这时候你必须使用add partition命令了...

2019-06-12 22:14:48 3812

原创自研大数据分析平台任务提交方式

大部分有实力的公司大数据平台发展到一定阶段，都会想着在大数据平台上做一层整合开发一个统一的对外服务平台，降低用户的使用门槛，提高开发效率。要做一个大数据服务平台对平台研发人员的能力有着较高的要求，目前这块做的好的都是一些大厂。今天我们简单谈下自研大数据分析平台任务提交方式：1. 使用服务自带的shell 命令提交。这是大多数项目使用的方法，简单,高效，大数据平台软件升级自兼容。开源项目有...

2019-06-10 21:34:24 523

原创 kerberos环境下hive server2使用负载均衡异常

hive server2在集群启用kerberos 环境下使用 haproxy 进行负载均衡时，会出现连接hive server2失败。异常产生的原因是hive server2实例DBTokenStore缓存的票据信息没有共享给其它实例，每个实例是独立的，客户端从一个hive server2获取票据，查询时可能访问的就是另外一个hive server2实例，导致失败。在这里有人可能就会想到用 i...

2019-06-08 21:48:05 786 1

原创 cloudera manager agent安装异常--Requires: libmysqlclient.so.18

cloudera manager agent安装失败日志如下：--> Processing Dependency: libmysqlclient.so.18(libmysqlclient_18)(64bit) for package: 2:postfix-2.10.1-6.el7.x86_64--> Processing Dependency: libmysqlclie...

2019-06-07 21:06:56 749

原创 kylin2.x集成 cdh5.11 异常

kylin 集成cdh5.11.1 运行报错日志如下：2017-08-10 15:26:25,293 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/typeinfo/Ty...

2019-06-06 20:51:28 217

原创 hdfs挂载

hdfs可以当做本地磁盘挂载到服务器上，操作hdfs就跟操作本地目录一样。hdfs有两种挂载方式：1. nfs 挂载在cm 管理台，hdfs 添加角色nfs 启动服务挂载目录：mount -t nfs -o vers=3,proto=tcp,nolock,noacl,sync nfsserver:/ /hdfs_nfs_mount卸载目录umo...

2019-06-05 20:44:00 1892

原创 cdh6.1,cdh6.2 hue sqoop组件提交异常

在cdh6.1，6.2中hue 中创建sqoop 工作流提交失败。这是个bug在hue4.4中修复了。解决方案： 1.升级hue至4.4 2.下载https://github.com/cloudera/hue/blob/release-4.4.0/desktop/libs/liboozie/src/liboozie/submission2.py文件替换cdh6...

2019-06-03 18:15:25 979 1

原创 hbase 内存优化

hbase on line服务gc停顿时间必须ms级，java gcd stop the world 时间太长会影响线上实时查询。hbase官方推荐hregionserver堆大小15-24g，堆过大会增加full gc的时间，超过这个限制需要重新调整GC以下是调优方案。32GB heap, -XX:G1NewSizePercent=3 64GB heap, –XX:G1NewSiz...

2019-06-02 22:00:16 532 1

原创 hbase RIT常用解决办法

相信维护过hbase的人都遇到过table进入RIT状态，RIT状态都是hbase管理者不愿意见到的。RIT是什么？可以看下这篇文章：https://www.jianshu.com/u/ad4d39659223,介绍的很详细。一般遇到hbase table 进入RIT怎么解决： 1.当在hbase webui看到某个表某个regin进入RIT时，可以重启该regin所在节...

2019-06-01 15:26:06 4855 1

原创 hdfs数据磁盘类型设置

储存类型：ARCHIVE:存档，存冷数据DISK: 硬盘SSD: ssd盘RAM_DISK: 内存hdfs设置dfs.storage.policy.enabled=true 默认为truedfs.datanode.data.dir=[DISK]/data1/dn/disk0, [SSD]/da...

2019-05-31 20:40:13 895 1

原创 datanode节点磁盘数据均衡

apache hadoop3.x后新增了节点磁盘数据均衡功能，cdh在5.8后已加入该功能。在没有该功能时，我们一般都会通过写盘策略来保证均衡，目前Hadoop支持两种volume选择策略：round-robin 和 available space，我们可以通过 dfs.datanode.fsdataset.volume.choosing.policy 参数来设置。在cdh中启用...

2019-05-30 21:39:15 1282

原创大数据调度系统

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类： 1.静态工作流执行列表 2.动态工作流执行列表静态工作流根据作业计划提前生成并持久化任务执行列表，代表有：oozie , azkaban,airflow。 oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务...

2019-05-30 21:03:37 2938

原创 hive动态分区过多异常

hive 执行动态插入分区sql 报如下错误：2019-05-28 16:04:40,381 WARN [Thread-1018] org.apache.hadoop.hdfs.DFSClient: Abandoning BP-618233350--1497874683119:blk_1607145278_533526274 2019-05-28 16:04:40,382 WARN [Th...

2019-05-29 18:16:39 2263

原创 hive连接数异常升高，线程卡死异常分析

最近使用hue 查询hive 出现超时，sql提交无反应。cdh监控发现HS2连接数直线上升，cpu使用率升高一直占用cpu，如下图：使用netstat命令查看端口连接状态，发现端口出现大量FIN_WAIT2的状态，重启hive后恢复正常。开始怀疑是网络丢包问题，检查服务器上其它进程正常，隔段时间问题重新，怀疑是hive服务本身卡死，端口状态如图：jstack打...

2019-05-28 12:37:23 4640

原创 hive 创建临时函数异常分析

一个java项目使用jdbc连接池连接hiveserver2 创建临时函数，第一次执行成功，第二次执行失败，返回错误如下:ERROR org.apache.hadoop.hive.ql.Driver: [HiveServer2-Handler-Pool: Thread-82]: FAILED: SemanticException No valid privilegesUser ...

2019-05-17 18:22:59 2780

原创 hbase 客户端连接超时异常

hbase客户端连接 hbase server超时主要原因：1. hbase server 网络不通2. hbase client 端没有配置hbase host，zookeeper host第一种情况很少发生，一般很容易发现。第二种情况经常发生，大家经常忘记配置host，启动hbase 客户端程序，发现日志程序卡住，日志输出停住，等半天没反应或报个超时。...

2019-05-15 21:08:27 2533

原创 cloudera manager 集成 livy zeppelin

https://github.com/alexjbush/livy_zeppelin_cdh_csd_parcels下载编译parcels文件1.将编译好的csd，parcels 包放到cm csd文件夹和 httpd服务目录下2.添加用，组groupadd -r zeppelinuseradd -r -g zeppelin zeppelingroupadd -r livy...

2019-05-14 20:25:56 498

原创 hdfs sentry acl权限同步失效

集群开启hdfs sentry acl权限同步，一直很稳定的运行，某天突然出现hive权限问题，hive通过hs2 访问的不受影响，hive cli访问全部失败(不推荐使用hive cli 命令)，其它任务访问hive表路径失败，用hdfs getfacl命令查看，权限同步目录acl全部失效，集群基本无法访问，查看sentry，hive正常，日志都没有异常信息，查看namenode日志出...

2019-05-10 18:15:32 2882

原创开源机器学习工具sqlflow

蚂蚁金服开源机器学习工具SQLFLOW，降低人工智能应用技术的门槛，让技术人员调用AI像sql一样简单。https://github.com/sql-machine-learning/sqlflow

2019-05-06 21:28:35 1074

原创 flink session window窗口合并

flink session window窗口的条件是元素间隔大于gap 还是大于等于gap?session window是怎么进行合并的？还是通过官方示例：org.apache.flink.streaming.examples.windowing.SessionWindowing 进行分析:主要是修改了下数据源，首先添加8这条数据执行结果如下:从结果可以看出 b 都在同一个窗...

2019-04-30 18:12:47 1572

原创 flink session window案例及源码分析

Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。 Flink提供了几种通用的 WindowAssigner：tumblin...

2019-04-29 18:13:26 843

原创 kafka进程退出问题分析

kafka一直使用的是0.8版本，比较老，打算升级到2.1版本。最近一直在测试，发现有个节点kafka server进程莫名的自动挂了，其它kafka server正常。查看日志，没有异常错误日志输出，在日志中发现了kafka shut down 原因是接收到了SIGHUP停止的信号。日志如下：INFO Terminating process due to signal SIGHU...

2019-04-28 21:34:51 5207 1

原创 hdfs balancer日志介绍

在cdh集群中使用命令行 hdfs balancer -threshold 5 开启动态平衡输出日志，我们通常想知道这次动态平衡的数据量及进度信息，日志中包含了这些信息。日志信息如下：19/04/21 07:23:57 INFO balancer.Balancer: Need to move 150.29 TB to make the cluster balanced.Apr 21, ...

2019-04-21 07:49:34 1280

原创 hive orc Timestamp类型字段比较大小异常

最近工作中同事使用如下sql查询一张hive orc格式的表select begin_time from log_a where dt = '20190418' and begin_time > unix_timestamp('2019-04-18 00:00:00')出现错误，日志如下:2019-04-19 12:01:38,135 INFO [IPC Serve...

2019-04-20 09:38:18 2571

原创 hive无法删除分区

hive中执行 ALTER TABLE xxxDROP IF EXISTS PARTITION (xx='xxx') 删除某表分区时，一直没有执行，卡住不动。其它表执行没有问题。info级别日志没什么输出，日志一直停留在那。在hive命令行使用hive --hiveconf hive.root.logger=DEBUG,console 启动客户端开启debug模式，再次执行删除分区语句，输...

2019-04-17 21:09:57 2718

原创 Hadoop上传文件报错could only be written to 0 of the 1 minReplication nodes.

把cloudera manager ,cdh 从6.1升级到6.2（升级方法跟cdh5的升级方式一样），首先很顺利的将cloudera manager,agent升级到了6.2，启动cdh6.1的集群发现hdfs有个文件写入验证异常，当时没太关注，直接开始升级cdh，cdh升级步骤执到yarn时出现mr framework包无法上传到hdfs 错误日志如下：File://xxxxxc...

2019-04-16 21:53:53 9486

原创 sqoop使用hcatalog抽取数据异常

sqoop使用hcatalog抽取数据到hive，开启hdfs sentry权限同步后sqoop hcatalog脚本执行任务失败，错误日志如下:Job commit failed: org.apache.hive.hcatalog.common.HCatException : 2006 : Error adding partition to metastore. Cause : org...

2019-04-10 18:16:53 3628

原创 hive orc异常

解决:this is due to the memory required by orc writer while writing orc files, you can limit the memory use by tweaking the value of orc.compress.size which is of 256KB by default.I am not sure abou...

2019-04-09 18:42:22 679

空空如也

空空如也