![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 73
阿龙的代码在报错
在校大专生,慢慢沉淀做自己的大佬
展开
-
Kafka集群搭建
进入Kafka安装目录的config目录修改server.properties配置文件,将“broker.id”改为“0”,“log.dirs”改为“/opt/logs/kafka-logs”,“zookeeper.connect”改为“master:2181,slave1:2181,slave2:2181”再将master节点配置好的/etc/profile文件远程发送至slave1、slave2节点,同样使配置文件立即生效。原创 2024-04-26 17:12:44 · 446 阅读 · 3 评论 -
ZooKeeper集群的搭建
在master节点切换至ZooKeeper安装目录的conf目录下,将zoo_sample.cfg重命名为zoo.cfg,并按照下表修改或添加zoo.cfg文件中参数。在master、slave1、slave2节点的“dataDir”目录下新建“myid”文件,三个节点的文件内容依次为1、2、3。将master节点配置好的ZooKeeper文件远程发送至slave1、slave2节点相同目录下。原创 2024-04-26 17:00:14 · 556 阅读 · 3 评论 -
spark配置
之所以改这个文件时因为spark是一个话痨这样可以修改他的输出日志减少日志的输出。在HDFS上创建程序运行历史记录存放的文件夹:(没有不创建的话会报错)配置log4j.properties 文件 [可选配置]配置spark-defaults.conf文件。将Spark安装文件夹 分发到其它的服务器上。配置spark-env.sh文件。检查每台机器的环境变量。原创 2023-05-08 23:16:40 · 206 阅读 · 0 评论 -
hive数据仓库配置
hive数据仓库的配置原创 2023-07-13 16:52:24 · 996 阅读 · 0 评论 -
hadoop 集群搭建(详细版)
hadoop 大户据平台的搭建,内容自认为比较详细原创 2023-03-16 23:00:00 · 1885 阅读 · 0 评论 -
No suitable driver found for jdbc:mysql://192.168.88.154:3306/yujinlong?characterEncoding=UTF-8
出现以上报错的原因:1、数据库IP的错误2、数据库端口出现错误3、数据库出现错误4、打包时数据库连接驱动版本不兼容5、服务器的驱动没有放置正确(或者没有放置)原创 2023-03-29 01:58:27 · 1516 阅读 · 0 评论 -
-bash: /opt/module/jdk/bin/javac: 权限不够
安装Java并且配置环境变量后执行。修改添加权限后再次执行命令成功运行。jdk的文件包的文件的权限不够。解决方法修改添加权限。原创 2023-03-19 22:15:32 · 968 阅读 · 0 评论 -
Transformation(转换算子)
Transformation(转换算子)原创 2023-02-09 23:14:59 · 1208 阅读 · 0 评论 -
使用spark分布式计算框架进行数据计算时 出现报错 Caused by: java.io.IOException: Input path does not exist
使用spark分布式计算框架进行数据计算时 出现报错 Caused by: java.io.IOException: Input path does not exist原创 2023-02-02 22:43:23 · 1169 阅读 · 0 评论 -
There are 4 missing blocks. The following files may be corrupted:
缺少 4 个块。以下文件可能已损坏:****请检查日志或运行 fsck 以识别缺失的块。请参阅 Hadoop FAQ 了解常见原因和潜在解决方案。原创 2023-01-31 09:41:39 · 918 阅读 · 0 评论 -
Apache Hive 使用
Apache Hive 使用原创 2023-01-08 16:07:14 · 510 阅读 · 0 评论 -
Hadoop YARN
Hadoop YARN是一个是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处我们如何理解通用资源管理系统和调度平台?资源管理系统:集群的硬件资源,和程序运行相关调度平台:多个程序同时申请计算资源如何分配,调度的规则(算法)通用:虽然yarn是在Hadoop中但是理论上它可以支持各种计算程序。原创 2023-01-03 22:59:20 · 461 阅读 · 0 评论 -
Hadoop HDFS
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问 和查找变得容易,以树形目录的抽象逻辑来对硬盘的数据块进行表示。我们大家都知道大数据之所以叫大数据进士因为它具有海量的数据,但是这种海量的数据该如何进行储存呢,我们的计算机的硬盘物理接口也是有限的,不能够无限制的去加硬盘,在这样的环境下分布式文件系统就诞生了。文件自身属性信息: 文件名称、权限,修改时间,文件大小,复制因子,数据块大小。元数据:也叫解释性数据,也就是记录数据的数据,也就记录数据的各种信息。原创 2023-01-03 18:18:45 · 240 阅读 · 0 评论 -
Hadoop MapReduce 介绍
MapReduce最早出现在Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters 》的论文中被提出MapReduce是一种分布式计算框架,那什么是分布式计算呢?分布式计算是将该应用分解成许多小的部分,分配给多台计算机进行处理,以达到提交计算效率的目的,减少大规模数据计算的时间。MapReduce是面向超大规模数据设计的一种计算框架,如果我们用MapReduce处理小规模数据的化还不如不用,会起到适得其反的作用,原创 2023-01-03 15:57:43 · 1183 阅读 · 0 评论 -
hadoop 集群搭建(详细版)
hadoop 集群搭建(详细版)非常详细原创 2023-01-02 17:25:32 · 582 阅读 · 1 评论