大数据生态组件搭建
文章平均质量分 83
爱喝可乐的老王
这个作者很懒,什么都没留下…
展开
-
基于Linux环境下搭建Hadoop3.3.5伪分布式集群
1. 在master上,切换到目录/export/servers,把hadoop-3.3.5远程拷贝到hadoop02和hadoop03上。也可通过FinalShell或xftp拖动到目标目录(需提前切换到/export/software),速度是几十个MB/s.很快的。可通过rz上传到当前目录(需提前切换到/export/software),上传速度是几个MB/s。配置文件都在这个目录下:/export/servers/hadoop/etc/hadoop。# 在hadoop02上可看到如下进程。原创 2024-01-10 22:24:15 · 1679 阅读 · 0 评论 -
Spark on YARN部署模式保姆级教程
没有最好的部署模式,具体要根据实际需求进行部署,由于Spark可以和Hadoop部署在一起,相互协作,Hadoop的HDFS,HBase负责数据存储与管理,Spark负责数据的计算,所以本文将详细讲解Spark on YARN模式的部署。这两种模式的选择取决于实际需求和使用环境,例如,学习、调试阶段可能更适合使用YARN-Client模式,而在生产环境中则常使用YARN-Cluster模式。在Spark中,根据运行模式的不同,有两种提交任务的方式:YARN-Client和YARN-Cluster。原创 2024-01-10 16:57:27 · 1933 阅读 · 1 评论 -
Sqoop数据迁移1.X版本安装部署
虽然Sqoop已经在2021年6月退休进入Attic(已经停止维护和升级,但是目前的使用程度还是比较高。支持同类型功能的软件有NiFiFlinkSparkTalendStreamSets等。Sqoop 主要用于在 Hadoop 和关系数据库或大型机器之间传输数据,可以使用 Sqoop工具将数据从关系数据库管理系统导入(import)到 Hadoop 分布式文件系统中,或者将Hadoop 中的数据转换导出(export)到关系数据库管理系统,其功能如图所示。原创 2023-11-20 13:10:58 · 77 阅读 · 1 评论 -
Azkaban4.0.0分布式安装部署
随着大数据开发的普及以及人们对工作流管理器的需求,Azkaban也受到了越来越多的开发者的使用,因此Azkaban 的版本也在持续更新,本文将使用Akaban 4.0.0讲解Azkabar的部署和使用。在Azkaban 3.X版本之后,Azkaban 提供了两种部模式,分别是 solo-server mode(独立服务器模式)和distributed multiple-executor mode(分布式多服务器模式)。原创 2023-11-11 17:32:58 · 154 阅读 · 1 评论 -
Flume的安装配置
java运行环境的版本与将要安装配置的Flume版本是对应的,如果使用Flume1.6版本,则要使用Java1.6及以上运行环境,由于本章后续将以Flume1.8.0为准,所以要求安装java1.8及以上运行环境。(本文/home/export/software为软件压缩包放置目录,/home/export/servers软件包目录,大家可自行调整自己的对应路径)一、java与Flume版本对应Flume版本依赖的JRE版本Java1.8 或更高版本Java1.8 或更高版本。原创 2023-10-27 21:26:46 · 541 阅读 · 1 评论 -
配置Hive3.1.2远程服务详细步骤
4.输入beeline进入hive shell命令行,连接mysql。4.在conf目录下新建hive-site.xml并写入。1.mysql配置好后下载驱动,放在hive/lib下。2.在hive/conf目录下复制一份。3.配置hive-env.sh文件。1.配置完成后要启动mysql服务。3.开启hiveserver2。2启动metastore。原创 2023-10-02 02:53:55 · 233 阅读 · 2 评论 -
zookeeper3.5.7+kafka2.12-3.4.1部署详细步骤
本文章主要是基于linux环境下(已完成IP,主机名设置,网络设置以及关闭了防火墙和jdk配置)搭建分布式集群(3台虚拟机ip),主要讲述zookeeper集群安装部署和kafka安装部署以及在安装期间的一些注意事项。三台虚拟机的主机ip及主机名masterhadoop02hadoop03。原创 2023-10-10 11:09:12 · 194 阅读 · 1 评论