![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop_hive
文章平均质量分 83
了解
daydayup9527
这个作者很懒,什么都没留下…
展开
-
hadoop节点添加与删除测试
在启动hadoop之前,我们需要做一步非常关键的步骤,需要在Namenode上执行初始化命令,初始化name目录和数据目录。5)修改Hadoop默认启动、关闭脚本,添加root执行权限。3)配置 mapred-site.xml。1)配置 core-site.xml。2)配置 hdfs-site.xml。4)配置 yarn-site.xml。4)修改 workers。hadoop节点上下线。4、启动hadoop。原创 2024-05-26 20:22:02 · 366 阅读 · 0 评论 -
04hive数仓内外部表复杂数据类型与分区分桶
内部表和外部表区别总结。原创 2024-03-10 18:50:54 · 1141 阅读 · 0 评论 -
03hive数仓安装与基础使用
Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低,不用开发复杂的mapreduce应用,十分适合数据仓库的统计分析hive可以用来进行 数据提取、转化、加载,这是一种可以存储、查询和分析存储在hadoop上的数据。原创 2024-03-10 18:48:23 · 679 阅读 · 0 评论 -
02hadoop伪分布式搭建
MapReduce是Hadoop提供的一套进行分布式计算的框架,用于大规模数据集(大于1TB)的并行运算MapReduce将计算过程拆分为2个阶段:Map(映射)阶段和Reduce(规约)阶段。原创 2024-03-10 18:47:11 · 709 阅读 · 0 评论 -
01hadoop概念
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。原创 2024-03-10 18:42:56 · 1217 阅读 · 0 评论 -
Hadoop学习之入门使用集群搭建
Hadoop 1、Hadoop是什么 Hadoop是一种分析和处理海量数据的软件平台,使用JAVA开发,提供一个分布式基础架构 Hadoop特点:高可靠性、高扩展性、高效性、高容错性、低成本 2)Hadoop组件 HDFS: 分布式文件系统(核心组件) MapReduce: 分布式计算框架(核心组件) Yarn: 集群资源管理系统(核心组件) Zookeeper: 分布式协作服务 kafka: 分布式消息队列 Hive: 基于Hadoop的数据仓库 Hbase: 分布式列存数据库 单机hadoo原创 2022-04-21 20:56:06 · 1493 阅读 · 0 评论