Hadoop
文章平均质量分 95
Augenstern K
道法自然,旧藏玄冥;天生牛顿,万物生明。
展开
-
Hive特殊函数的使用
列举hive一些特殊函数的使用。with as 、cast 、get_json_object、unix_timestamp、from_unixtime原创 2023-10-24 17:51:42 · 594 阅读 · 1 评论 -
zookeeper —— 分布式服务协调框架
Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式Zookeeper = 文件系统 + 通知机制。原创 2023-09-18 15:07:01 · 1425 阅读 · 1 评论 -
Hadoop生态圈中的数据同步工具SQOOP
SQOOP软件是Apache开源的顶尖项目,sqoop.apache.org 被设计用来在RDBMS和Hadoop(Hive、HDFS、HBase)之间进行数据传输的工具。原创 2023-09-15 20:12:51 · 2099 阅读 · 1 评论 -
Hadoop生态圈中的Flume数据日志采集工具
Hadoop生态圈中的Flume数据日志采集工具,采集系统/网站产生的日志文件数据、端口数据等等到大数据环境中原创 2023-09-13 10:35:59 · 3028 阅读 · 1 评论 -
Hadoop生态圈中的Hive数据仓库技术
Hive技术通过类SQL语言(HiveQL--HQL)分布式数据的管理、计算、存储的操作。原创 2023-09-09 21:07:38 · 833 阅读 · 5 评论 -
Hadoop的第三大组成:YARN框架
YARN是一个分布式资源调度系统,专门用来给分布式计算程序提供计算资源的,而且YARN只负责进行资源的提供,不管计算程序的逻辑,因此YARN这个软件非常的成功,因为YARN不关注程序计算逻辑,因此只要是分布式计算程序,只要满足YARN的运行要求,那么就可以在YARN上进行运行,由YARN进行资源调度。YARN提供一个web网站,http://ip:8088,通过这个web网站,可以查看YARN集群的资源信息和队列信息,以及可以查看YARN上运行的分布式计算程序的状态以及运行的日志输出。原创 2023-09-08 21:41:58 · 914 阅读 · 2 评论 -
Hadoop的第二个核心组件:MapReduce框架第四节
MapReduce详细的工作流程、应用场景,MR程序运行问题总结等原创 2023-09-06 16:34:42 · 721 阅读 · 2 评论 -
Hadoop的第二个核心组件:MapReduce框架第三节
MR程序运行的核心阶段的细节性知识原创 2023-09-06 16:30:12 · 599 阅读 · 1 评论 -
Hadoop的第二个核心组件:MapReduce框架第二节
MapReduce的简易版工作流程原理、序列化机制及案例的实现原创 2023-09-06 16:26:27 · 553 阅读 · 1 评论 -
Hadoop的第二个核心组件:MapReduce框架第一节
MapReduce框架的基本概念、组成及简单案例分析原创 2023-09-06 16:18:32 · 621 阅读 · 1 评论 -
Hadoop的分布式文件存储系统HDFS组件的使用
Hadoop的第一个核心组件:HDFS(分布式文件存储系统)原创 2023-09-06 14:55:36 · 1737 阅读 · 1 评论 -
Hadoop的概述与安装
Hadoop的基本概述与安装配置原创 2023-09-04 21:15:35 · 821 阅读 · 1 评论