Hadoop历险记
文章平均质量分 68
Hadoop历险记
vcaml7717
不要辜负命运的托付
展开
-
Hadoop历险记(前言)
我在工作中接触过大数据相关的东西 但是平常都是业务开发为主,这段时间正好有空 好好梳理一下大数据的hadoop体系。原创 2023-05-02 01:20:36 · 29 阅读 · 0 评论 -
Hadoop历险记(一:hadoop概览)
一个主节点 很多个从节点 一个机器上面会有一个从节点 这样就联合多台机器进行集群化的处理,主节点有全局管理的作用,所以一旦主节点丢失或者出问题了 那么基本就gg了,所以hadoop机制中肯定会有主节点保护和备份的内容 这里先不多赘述。要非常注意的是:这两个核心集群逻辑上是分离的,比如一台机器上上都部署了HDFS的DN和YARN的NN 他们一起工作但是彼此什么关系都没有。不要把他们理解成同一个程序。集群架构:这里对初学者来说有一个很重要的点,就是集群架构。(什么是集群请看这一篇:)原创 2023-04-25 00:48:55 · 60 阅读 · 1 评论 -
Hadoop历险记(二 环境搭建和集群安装)
win11的虚拟网卡刚开始是空的 在VM里面安装有时候也会失败,解决方法是这一篇https://blog.csdn.net/Young_Harry/article/details/123252641。安装三个linux系统 在虚拟机上面来模仿集群的三台机器(这里大家可以搜索百度自己学着装,也可以去搜免费教程里面的现场的虚拟机vmx直接导入现成的linux系统)很多初学者接触hadoop之前是没学过java的,因为hadoop是java写的所以搭建环境的时候 linux上面记得先装jdk 然后配好环境变量。原创 2023-04-25 02:19:04 · 79 阅读 · 1 评论 -
Hadoop历险记(三 HDFS 基础)
从我个人之前的学习工作经验来看,新手上手Hadoop 建议从HDFS学起,因为分布式文件系统是这个框架的核心功能。新手可以看上一篇中的内容 先把Hadoop的相关环境搭建好,在虚拟机上的多台linux机器上 可以正常启动hadoop。然后再动手开始接触HDFS,没有动手环境的情况下 干看没有任何意义。原创 2023-04-26 02:32:06 · 50 阅读 · 0 评论 -
Hadoop历险记(四 HDFS shell命令和工作流程)
回顾一下上一节的准备工作:已经理解了HDFS的基础,搭建好了Hadoop集群 三台机器正常启动:HDFS的常用shell命令 网上有完备的资料直接搜即可 这里记录一些常用的。 hadoop或者hdfs的这些命令和linux很相似 所以学习成本很低。1:首先我们一次性启动三台机器的Hadoop(注意 这里是群起群停 而不是单独启动某一台机器(当然这样是允许的) 所以哪台机器上有主节点NN 就在哪台机器上输入,不要跑到从节点机器上去启动):(这里已经配置好了免密登录和workers文件 所以可以直接使用这原创 2023-04-28 05:32:59 · 51 阅读 · 0 评论 -
Hadoop历险记(五 理解YARN)
上一篇理解了HDFS。这一篇说说YARN。什么是YARN?yarn是一个通用的资源管理和调用平台。核心: 管理,调度。之前说了 YARN和HDFS一样是集群。那么就意味着 它也不是单机器部署 而是每个机器都有。跟HDFS一样 也是标准的主从架构。这里是面对新手的分享 所以我们还是从最基本的开始解释资源管理。原创 2023-04-28 06:58:29 · 63 阅读 · 0 评论 -
Hadoop历险记(六 什么是数据仓库 什么是Hive)
hive时建立在Hadoop之上的数据仓库系统,它可以将Hadoop文件系统中的数据文件映射成一张表, 然后再对这张表提供sql的查询模型,它的核心就是把 sql语言转换成hadoop里面的MR程序 然后提交到hadoop执行。举个例子比如我们经常用的京东淘宝电商网站,用户在使用购物时会产生各种各样的业务数据,这些业务数据是和用户直接联机交互的。这时候就有了数据分析的需求。hdfs里面主节点存元数据 元数据不是具体的数据 它存的是具体数据的位置 数据的属性)前面的文章中将了 hdfs的是怎么存储数据的?原创 2023-05-01 05:27:24 · 61 阅读 · 0 评论 -
Hadoop历险记(七 Hive配置和启动hiveservice2服务)
但是hive我们并没有每天机器都安装,我们只安装第一台机器,所以从安装角度说他是单机的,但是它为什么优势分布式查询呢?现在都强烈用新配置了, 这里新配置由多了一个东西 叫做HS2,新手觉得很sb,本来元数据外面套一个元数据服务,现在元数据服务外面还有再套一个HS2.理解配置文件是非常必要的,这个必要性就在于 从配置文件你能体会到hive的各个组合是怎么联系起来的,它是怎么和Hadoop配合的。前面一堆操作 我们已经正式启动了hive 装也装好了 配也配好了 服务也起来了,现在我们可以正式的使用它了。原创 2023-05-02 00:37:28 · 2522 阅读 · 0 评论 -
Hadoop历险记(八 Hive基本的库表操作)
在这一章之前 已经搭建好了hadoop,hive集群。且服务可以正常启动。做好了前期这些准备工作,就可以动手实战hive了。原创 2023-05-05 21:38:26 · 111 阅读 · 0 评论 -
Hadoop历险记(九 DML 数据操作)
具体的查询语句 这个就很基础了 如果有mysql 关系型数据库 经验的新手可以很快速的上手 这里就不多赘述了。hive的数据加载操作很常见,工作中经常会遇到,你新建了一张hive表,然后数据文件在某某某个地方 你把它导入到hive表对应的location下面。这里新手千万不要搞混,比如你在A远程连接 B机器上的H2服务, 这里的本地就是B机器 而不是A机器。这里要注意一个习惯: 你查询语句里的列的数目和排列顺序 要和目标表的顺序 和数目相同。比如上一篇中创建的那个表:它的路径是。原创 2023-05-05 23:10:47 · 30 阅读 · 0 评论