大数据搭建集群
文章平均质量分 62
hykDatabases
这个作者很懒,什么都没留下…
展开
-
java操作sqoop在本地测试正常打包发布到阿里云服务器报错
在做项目时,把sqoop和mapreduce集成到springboot中做数据抽取和计算,并打成jar包上传到服务器,项目是使用eureka进行注册提供服务,父项目下创建子模块,通过maven的package打包子模块。通过以下命令在服务器运行# nohup和&组合在后台运行 运行时会在当前目录下生成一个nohup.out日志文件[root@fda ~]# nohup java -jar XXX.jar &Sqoop版本1.4.7Hadoop版本2.7.7当进行sqoop的数原创 2021-03-04 08:40:37 · 407 阅读 · 7 评论 -
SpringBoot远程提交任务到Hadoop集群报错java.lang.ClassNotFoundException: Class zut.edu.mapreduce.DeptMapper not
在SpringBoot中编写MapReduce程序,并提交任务到集群,我实在本地调试的,一开始使用的是IntelliJ IDEA 2019.3 x64的右侧的Maven直接package直接打包,结果报错如下:Error: java.lang.RuntimeException: readObject can't find class at org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit.readClass(TaggedInputSplit.j原创 2021-02-26 01:07:37 · 375 阅读 · 0 评论 -
Hadoop2.7.7阿里云安装部署
阿里云的网络环境不需要我们配置,如果是在自己电脑上的虚拟机,虚拟机的安装步骤可以百度。这里是单机版的安装(也有集群模式的介绍)使用Xshell连接阿里云主机,用命令将自己下载好的安装包上传到服务器# 先安装程序,方便后面使用[root@fda ~]# yum -y install lrzsz# rz是上传 sz 加文件名 是下载# 如下命令回车会让你选择需要上传的文件[root@fda ~]# rz关闭防火墙阿里云的防火墙是关闭的,如果不是关闭的执行下面的相关命令#查看防火墙开启状态原创 2021-01-22 23:59:40 · 749 阅读 · 0 评论 -
Kettle8.3遇见的错误
连接hive2报错错误连接数据库 [ww] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the databaseError connecting to database: (using class org.apache.hive.jdbc.HiveDriver)org/apache/hadoop/conf/Configuration…………C原创 2020-05-27 11:57:02 · 935 阅读 · 3 评论 -
Sqoop安装简介及部署
Sqoop安装部署数据同步工具(针对各种数据库) :开源工具: sqoop、datax、kettle、cannal、自定义代码。Sqoop简介产生背景 :基于传统关系型数据库的稳定性。还是有很多企业将数据存储在关系型数据库中,早期由于工具的缺乏,Hadoop与传统数据库之间的数据传输非常困难。基于前两个方面的考虑。需要一个在传统关系型数据库和hadoop之间进行数据传输的项目。Sqoop...原创 2020-03-05 14:24:40 · 305 阅读 · 0 评论 -
Flink部署--入门
Flink安装部署standalone模式在/opt/module/Flink目录下上传flink-1.7.0-bin-hadoop27-scala_2.11.tgz压缩包并解压[root@node01 Flink]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz #重命名解压后的文件夹[root@node01 Flink]# mv ...原创 2020-03-05 14:23:22 · 393 阅读 · 0 评论 -
Flink简介
Flink简介Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐...原创 2020-03-05 14:23:00 · 249 阅读 · 0 评论 -
Hive安装部署
Hive安装地址Hive官网地址:http://hive.apache.org/文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted下载地址:http://archive.apache.org/dist/hive/github地址:https://github.com/apache/hiveHive安...原创 2020-02-20 22:56:20 · 329 阅读 · 0 评论 -
hadoop中namenode安全状态查看和离开安全模式
查看namenode是否是安全状态[root@node01 ~]# hadoop dfsadmin -safemode getDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.Safe mode is OFF进入安全模式(ha...原创 2020-02-18 20:45:14 · 2168 阅读 · 0 评论 -
Hadoop之HDFS的shell操作
HDFS的Shell操作(开发重点)基本语法bin/hadoop fs 具体命令 或 bin/hdfs dfs 具体命令dfs是fs的实现类。命令大全[root@node01 ~]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-...原创 2020-02-18 13:16:25 · 232 阅读 · 0 评论 -
Hadoop之HDFS概述
HDFS概述HDFS产出背景及定义1、HDFS产生背景随者数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的态盘中,但是不方便管理和维护,迫切 需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2、HDFS定义HDFS (Hadop Distributed File System),它是一个文件系统,用于存...原创 2020-02-18 11:59:33 · 153 阅读 · 0 评论 -
Spark的Standalone模式
Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中修改spark-env.sh文件把YARN_CONF_DIR=/opt/module/Hadoop/hadoop-2.7.7/etc/hadoop注释掉,这个是我在Yarn模式下的修改# spark启动时master的启动主机#YARN_CONF_DIR=/opt/module/Hado...原创 2020-02-14 21:13:04 · 243 阅读 · 0 评论 -
Spark的Yarn模式
Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster(集群模式,工作中常用)两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适应于交互、调试,希望立即看到app的输出yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMa...原创 2020-02-14 21:01:56 · 276 阅读 · 0 评论 -
Spark安装及Local模式
Spark安装官网下载spark :http://spark.apache.org/downloads.html把spark-3.0.0-preview2-bin-hadoop2.7.tgz上传到/opt/module/Spark目录下并解压[root@node01 Spark]# tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz执行s...原创 2020-02-14 20:46:36 · 352 阅读 · 0 评论 -
Kafka简介及安装部署
Kafka概述1、什么是Kafka在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2)Kafka最初是由LinkedIn公司开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数...原创 2020-02-14 19:44:30 · 102 阅读 · 0 评论 -
Hadoop3.x安装部署
一、安装部署此处是单机版安装,我安装的使hadoop3.1.3,因为hadoop2.x和hadoop3.x的安装部署有些不同,所以记录一下首先安装好jdk,并且准备好hadoop3.x的安装包,可以去官网下载openssh安装,便于远程上传文件(每台主机都做)[root@node03 ~]# yum -y install openssh-clients同步时间工具(每台主机都做)#安...原创 2019-12-24 17:48:26 · 2857 阅读 · 0 评论 -
flume安装及入门
一、 Flume安装地址可以选择自己想要安装的版本进行下载1) Flume官网地址http://flume.apache.org/2)文档查看地址http://flume.apache.org/FlumeUserGuide.html3)下载地址http://archive.apache.org/dist/flume/二、安装部署用rz命令上传安装包apache-flume-1.9...原创 2019-11-19 19:34:07 · 250 阅读 · 2 评论 -
CentOS中Mysql的离线和在线安装
CenOS7下安装mysql1、下载安装包wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm如果没有安装wget可以先安装以下sudo yum install wget2、安装mysqlsudo rpm -ivh mysql57-community-release-el7-8.noarch.rp...原创 2019-11-18 23:15:21 · 303 阅读 · 1 评论 -
zookeeper简介及安装
一. zookeeper概述Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等1.1 为什么要使用zookeeper大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)。目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制协调程序...原创 2019-11-11 19:08:50 · 318 阅读 · 0 评论 -
HBase简介及安装
一、HBase简介1、什么是HBaseHBase(Hadoop DataBase)是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigta...原创 2019-11-11 16:48:00 · 326 阅读 · 0 评论 -
本地运行hadoop以及远程提交任务到集群环境配置
工具准备我这里配置的是2.5.2的版本,根据自己的情况选择想要配置的版本。需要准本工具如下,hadoop.dll和winutils.exe要下载对应的版本。(我是在win10下操作的)一、 hadoop的解压** 1、** 找一个你想解压的位置解压hadoop-2.5.2.tar.gz到本地并把winutils.exe放到hadoop的bin下,下面是我的解压位置:**2、**把had...原创 2019-11-11 14:09:10 · 710 阅读 · 1 评论 -
Kylin搭建及测试
1.把需要的压缩包准备好如下图:2.在主机上部署,已部署的HBase, Hive, Yarn并启动。创建一个目录:mkdir /usr/local/apps进到该目录下:cd /usr/local/apps把包上传到该目录下(/usr/local/apps)用命令rz上传解压上传的包:tar -zxvf apache-kylin-2.4.1-bin-cdh57.tar.gz...原创 2019-05-30 09:21:26 · 901 阅读 · 0 评论 -
cdh离线集群搭建
**cdh搭建**准备工作:相关安装包创建虚拟机,安装CenOS7的镜象文件,主机要不低于8G,两个子机不低于3G,因为内存小了安装的集群可能没法使用。这里以两台为例。一、基础配置1.配置网络:采用Nat方式联互联网。2. vim /etc/sysconfig/network-scripts/ifcfg-ens33(斜体处为自己的网卡名称,我的就是ens33)修改以下配置ONB...原创 2019-05-24 18:36:24 · 549 阅读 · 0 评论