爱码师-CSDN博客

原创 shell脚本sqoop从hive导出到Oracle

shell脚本#! /bin/bash# $1:oracle和hive的表名# 时间year_month=`date +%Y%m`# 获取hive表的列col=`hive -e "desc database_name.$1"|awk '{if(!NF || /^#/ || /^l_date/){next} printf $1","}'|sed 's/,$/\n/g'`...

2019-08-02 17:05:57 884

原创 Oracle管理表空间、用户及授权

创建临时表空间CREATE TEMPORARY TABLESPACE tablespace_name_temp TEMPFILE '/home/oracle/app/oracle/data_ora/orcl/tablespace_name_temp.dbf' SIZE 200M REUSE AUTOEXTEND ON NEXT 20M MAXSIZE UNLIMITED;创建表空间...

2019-08-02 15:53:50 404

原创 Oracle使用数据泵方式导入/导出dump文件（impdp/expdp）

oracle表导出为dump文件（在源Oracle上执行）1.登录sysdba用户sqlplus / as sysdba2.创建Oracle目录CREATE OR REPLACE DIRECTORY dump_dir AS '/folder_path';3.对此目录给用户授权GRANT READ,WRITE ON DIRECTORY dump_dir TO usern...

2019-08-02 14:37:40 4997

原创 hive增加、删除、查看表分区

增加hive表分区ALTER TABLE database_name.table_name ADD IF NOT EXISTS PARTITION(partition_column='partition_value') LOCATION 'folder_path' ;删除hive表分区ALTER TABLE database_name.table_name DROP IF EXIS...

2019-08-01 14:25:08 1020

原创 zeppelin入门并集成Spark2.3.2和Carbondata1.5.2步骤

简介：官网：http://zeppelin.apache.org/官网简介：基于Web的notebook，支持SQL，Scala等数据驱动的交互式数据分析和协作文档。环境：CentOS release 6.10 (Final) java version "1.8.0_131" Spark 2.3.2 Carbondata 1.5.2下载安装包：下载地址：http://zeppel...

2019-07-19 15:33:06 482

原创 CDH5.13.1安装kafka服务

CDH5.13.1安装kafka服务安装环境：CDH 5.13.1 kafka 3.1.1-1.3.1.1.p0.2 CentOS release 6.10 (Final) java version "1.8.0_131"安装前准备：cloudera manager管理界面添加服务，会找到kafka服务，但是安装提示如下图： Apache Kafka将发布-订阅消息重新考虑为...

2019-07-19 11:51:58 926

原创 centos编译安装Thrift 0.9.3

什么是Apache Thrift官网给出的简介： Apache Thrift软件框架，用于可扩展的跨语言服务开发，将软件堆栈与代码生成引擎相结合，构建可在C ++，Java，Python，PHP，Ruby，Erlang，Perl，Haskell，C＃、Cocoa，JavaScript，Node.js，Smalltalk，OCaml和Delphi等语言之间高效无缝工作的服务。安装环...

2019-07-17 15:46:51 704

原创 CarbonData 1.5.2编译部署步骤(spark2.3.2)

简介：Apache CarbonData是在Apache Hadoop、Apache Spark等大数据平台上实现快速分析的索引柱状数据存储解决方案。 Apache CarbonData 是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高计算效率，从而加快查询速度，其查询速度比 PetaBytes 数据快一个数量级。 Apache CarbonData是首个由中国公司...

2019-07-17 15:29:50 711 4

原创 Apache Spark2.3.2源码编译+部署HA详解(CDH5.13.1环境)

前言：首先为什么要用apache spark2.3.2的源码来自己编译？因为spark一般需要结合Hadoop来使用，所以需要对应Hadoop相应的版本。 CDH编译好的spark，可能在结合其它组件使用的时候，容易出现一些问题。简介：网址：http://spark.apache.org/ 从官网简介可以看出：快如闪电的统一分析引擎 Apache Spar...

2019-07-17 12:00:38 525

原创搭建CDH5.13.1步骤及问题解决

资源准备：cloudera manager安装包和配置文件: cloudera-manager-centos7-cm5.13.1_x86_64.tar.gz 下载地址：http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.13.1_x86_64.tar.gz CDH-5.13.1-1.c...

2019-07-17 10:22:06 540

原创在Centos7.4离线搭建Ambari2.4.1+HDP-2.5详细教程

一、资源准备： Ambari资源包和本地源： Ambari2.4.1 HDP-2.5 HDP-UTILS-1.1.0.21 Linux服务器，数量自选最好在3台以上，本文档以8台为例，版本centos7.4，以下是每台服务器的角色： 71.17.24.117 namenode ambari-server ambari-agent 71....

2019-07-16 14:21:32 492

原创 ElasticSearch javaApi 增删改查

pom.xml文件 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <elasticsearch.version>5.6.3</elasticsearch.version> </propert...

2018-11-21 18:46:21 265

原创使用Mapreduce将hbase 1.1.2 数据导入elasticsearch 2.3.4 中所遇到的坑

由于上级领导给的需求，让把hbase中的数据通过mapreduce导入到es中，并且需要重新设计es中存储的结构。因为本人菜鸟一名，初次接触es就遇到了以下的坑，在此总结出来：首先，先推荐两个博客，我就是参考这两个博客加上自己上百次的实验，最终完成了任务，非常感谢这两位博主的分享。1.https://blog.csdn.net/fxsdbt520/article/details/53893...

2018-08-15 15:26:06 1377 2

原创 hive-2.3.2配置步骤及问题解答

本人搭建好的hadoop环境为在CentOS7上搭建的hadoop-2.8.2的HA环境1.将apache-hive-2.3.2-bin.tar.gz包拷到服务器上，并使用tar -zxvf apache-hive-2.3.2-bin.tar.gz命令进行解压2.进入解压好的apache-hive-2.3.2-bin目录找到conf目录，将hive-default.xml.template...

2017-12-05 23:58:55 700

原创 hadoop-2.8.2编译64位教程 CentOS7 jdk1.8

一.编译前的准备1.CentOS7系统的机器2.jdk1.8 安装命令：rpm -ivh jdk-8u151-linux-x64.rpm验证命令：java -version3.源码包hadoop-2.8.2-src.tar.gz解压命令：tar -zxvf hadoop-2.8.2-src.tar.gz4.安装Apache-Maven解压命令：tar -zxvf a

2017-11-06 22:24:03 1392

原创在集群上安装Hadoop1.2.1，并配置好，启动hdfs后使用jps查看datanode，启动后过一会再看就消失了

在网上看了好多的解决办法，都是千篇一律的namenode的namespaceID或者clusterID不匹配，但是我查看了我的日志，并没有发现类似的情况，而且都是正常的，没有出现Error的信息，但是也有的文章启发了我，可以试试从缓存文件下手，于是我就将集群上面所有的hadoop配置的hadoop.tmp.dir对应的文件使用rm命令删除，并将集群上面/tmp文件中有关于Hadoop的缓存文件也全...

2017-10-26 00:33:27 500

zxz306418932的博客