白开水v5-CSDN博客

原创无hadoop环境部署Kylin4 迁移元数据

正式环境为CDH + KYLIN 2.3 , 本文在测试环境（无CDH hadoop）部署kylin4，访问正式环境的hadoop数仓进行cube构建，参考了官网的部署经验，但是官网是针对AWS ，且有些文件未配置情况下会报错，在此重新总结。

2021-11-18 18:44:15 1350 1

原创 hive1升级hive2使用RCFile内容错乱

由于在Hive1中使用的RcFile格式存储并且没有指定Serde，当把数据文件拷贝的Hive2的目录下查询时发现数据错乱原因：hive1不指定Serde默认采用org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDehive2不指定Serde默认采用org.apache.hadoop.hive.serde2.co...

2019-08-28 18:44:35 446

原创 CDH在yarn上运行程序乱码

安装完成CDH后，在yarn上不管是使用hive运行mapreduce还是spark，中文全都会乱码。1. linux的环境变量设置字符集vi /etc/profileexport LANG=zh_CN.UTF-82. 修改mapreduce的环境变量hadoop-env.shexport HADOOP_OPTS="-server -Dfile.encoding=...

2019-08-26 17:53:46 4592 9

原创 CDH6.2配置spark.yarn.jars目录

按照官网的文档采用以下操作即可：进入CM界面选择spark服务配置搜索spark-defaults.conf 添加spark.yarn.jars=hdfs://ns1/user/spark/jars 部署客户端并重启但实际重启后发现节点上的配置文件依然是默认属性，没有分发覆盖，具体还没找到解决办法。暂时采用软链的方式，如果不得已在CM界面修改了配置并部署，则需要重新创建软链...

2019-08-26 17:50:58 1920 1

原创使用linux脚本shell检查大数据各节点服务是否运行正常

脚本通过ssh检查大数据环境中各节点的相关实例是否运行正常，包括：zk、hadoop-ha、hdfs、yarn、hbase、hive-metastore、hiveserver2、kafka。注意修改成自己的集群节点名称及kafka版本#!/bin/bash# 定义机器名前缀HN_PREFIX="hadoop.test"KFK_NAME="kafka_2.12-1.1.0"# 各...

2018-12-27 16:27:47 1109

原创 Hive启用hiveserver2（JDBC）

使用zk配置为HA高可用修改hive-site.xml配置文件：增加以下配置<property> <name>hive.zookeeper.quorum</name> <value>172.x.x.x:2181,172.x.x.x:2181,172.x.x.x:2181</value></property...

2018-10-19 14:46:16 1319

原创 Hive添加删除修改字段

官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns添加删除字段语法：ALTER TABLE table_name [PARTITION partition_spec] -- (No...

2018-10-19 14:25:44 47295 2

转载 Flume学习笔记及配置参数详解

转载自：https://blog.csdn.net/Wei_HHH/article/details/77838999一、什么是flumeFlume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。二、flume特点flume的数据...

2018-10-16 15:48:55 1242

原创 hive集成phoenix

因为有用到phoenix往hbase中建表及填充数据，所以在使用到hive的时候不能直接通过hive建立hbase的外部表1. 指定hive的HIVE_AUX_JARS_PATHvi hive-env.shHIVE_AUX_JARS_PATH=<path to jar>vi hive-site.xml <property> <n...

2018-10-16 15:45:34 2206

转载 Hive集成HBase详解

转载自：https://www.cnblogs.com/MOBIN/p/5704001.html1.从Hive中创建HBase表使用HQL语句创建一个指向HBase的Hive表CREATE TABLE hbase_table_1(key int, value string) //Hive中的表名hbase_table_1STORED BY 'org.apache.hadoop.hi...

2018-10-16 15:42:42 243

原创 sqoop从mysql到hive实现定时增量导入

整理自网络，其中有自己遇到的问题及解决方法。1.第一次全量抽取，并创建hive表sqoop import --connect jdbc:mysql://localhost:3306/test --username xxx --password xxx --direct --fields-terminated-by '\t' --target-dir /data/sqoop/shop -...

2018-10-11 11:22:09 5096 3

原创 hive操作分区表

创建分区表对于分区表，不管是内部还是外部，都需要通过load或者alter table xxx add partition注册有分区信息才能查询。对于直接通过hdfs创建对应的分区目录及写入数据，在hive中查询不到数据。如果hive中已有某分区，直接通过hdfs在该分区目录写入数据文件，则能通过hive直接查询到新写入的数据。create EXTERNAL table test_02...

2018-10-10 15:04:48 389

转载 Sqoop常用命令及参数说明

转载自：https://www.aliyun.com/jiaocheng/1106363.html列出mysql数据库中的所有数据库中的test数据库sqoop list-databases --connect jdbc:mysql://localhost:3306/test -usernametest -passwordtest连接mysql并列出数据库中的表sqoop lis...

2018-10-09 17:53:07 1946

转载 Hive三种建表语句详解

转载自：https://blog.csdn.net/qq_36743482/article/details/78383964注：hive其他语法在hive官网有说明，建议初学者，去官网学习一手的资料，官网：https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationCreate Table...

2018-10-09 14:59:17 6512

原创 hive内部表外部表的创建及load数据

内部表创建hive内部表create table test_01(id bigint, name string ) row format delimited fields terminated by ',';默认记录和字段分隔符：\n 每行一条记录^A 分隔列（八进制 \001）^B 分隔ARRAY或者STRUCT中的元素，或者MAP中多个键值对之间分隔...

2018-10-09 14:43:50 5822

原创 spark通过phoenix读写hbase（Java版）

pom.xml  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spar...

2018-08-06 18:00:16 5967 2

原创 sparkSQL自定义聚合函数（UDAF）实现bitmap函数

创建测试表使用phoenix在HBase中创建测试表，字段使用VARBINARY类型CREATE TABLE IF NOT EXISTS test_binary (date VARCHAR NOT NULL,dist_mem VARBINARY CONSTRAINT test_binary_pk PRIMARY KEY (date) ) SALT_BUCKETS=6; 创建完...

2018-07-30 11:33:43 2915 7

原创使用线程安全队列（ConcurrentLinkedQueue）实现生产-消费模型

import java.util.ArrayList;import java.util.List;import java.util.Queue;import java.util.Random;import java.util.concurrent.ConcurrentLinkedQueue;/** * 使用现成安全队列（ConcurrentLinkedQueue）实现生产-消费模型...

2018-07-10 18:04:17 1427

原创 Spark Streaming集成kafka和redis简单示例 - Java版

pom.xml中添加依赖：<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-strea...

2018-06-29 15:47:27 1743

原创启动总结 - CentOS6大数据套件HA安装（6）

切换账户su hadoopcd /hadoop启动 zookeeper# 分别启动节点：hadoop101 hadoop102 hadoop103./zookeeper/bin/zkServer.sh start启动 HDFS# 在manager202上执行./hadoop-2.7.6/sbin/start-dfs.sh启动 YARN# 在manager20...

2018-05-18 14:13:19 197

原创安装hbase phoenix - CentOS6大数据套件HA安装（5）

环境变量参考【CentOS6-大数据套件HA安装（1）统一环境配置)】此处所有机器防火墙关闭，实际可根据需要调整。软件包统一在/usr/local/soft 目录，安装目录为：/hadoop安装 phoenix解压tar -xzvf /usr/local/soft/apache-phoenix-4.13.1-HBase-1.2-bin.tar.gz -C /hadoopmv ...

2018-05-18 14:12:36 296

原创安装spark on yarn - CentOS6大数据套件HA安装（4）

环境变量参考【CentOS6-大数据套件HA安装（1）统一环境配置)】此处所有机器防火墙关闭，实际可根据需要调整。软件包统一在/usr/local/soft 目录，安装目录为：/hadoop安装 spark解压tar -xzvf /usr/local/soft/spark-2.2.1-bin-hadoop2.7.tgz -C /hadoo配置 spark-env.s...

2018-05-18 14:11:37 254

原创安装hadoop - CentOS6大数据套件HA安装（3）

环境变量参考【CentOS6-大数据套件HA安装（1）统一环境配置)】此处所有机器防火墙关闭，实际可根据需要调整。软件包统一在/usr/local/soft 目录，安装目录为：/hadoop安装hadoop解压tar -xzvf /usr/local/soft/hadoop-2.7.6.tar.gz -C /hadoop/创建tmp、journal目录mkdir /h...

2018-05-18 14:10:24 345

原创安装zookeeper - CentOS6大数据套件HA安装（2）

环境变量参考【CentOS6-大数据套件HA安装（1）统一环境配置)】此处所有机器防火墙关闭，实际可根据需要调整。软件包统一在/usr/local/soft 目录，安装目录为：/hadoop安装zookeeper解压tar -xzvf /usr/local/soft/zookeeper.tar.gz -C /hadoop创建data目录mkdir /hadoop/zo...

2018-05-18 14:08:34 195

原创统一环境配置 - CentOS6大数据套件HA安装（1）

软件版本jdk-8u172-linux-x64.rpm scala-2.12.5.tgz zookeeper.tar.gz hadoop-2.7.6.tar.gz spark-2.2.1-bin-hadoop2.7.tgz hbase-1.2.6-bin.tar.gz apache-phoenix-4.13.1-HBase-1.2-bin.tar.gz服务器规划...

2018-05-18 14:05:59 307

原创大数据-spark、hadoop、hbase错误汇总

1. Name node is in safe mode# 强制离开安全模式hadoop dfsadmin -safemode leave参数value的说明如下：enter - 进入安全模式leave - 强制NameNode离开安全模式get - 返回安全模式是否开启的信息wait - 等待，一直到安全模式结束。2. spark thrift mysql:...

2018-05-10 16:22:02 1335

xbing的博客