![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
文章平均质量分 92
何苏三月
兔子BUFF加持
展开
-
大数据技术之Hive:先导篇(一)
什么是分布式SQL计算我们知道,在进行数据统计分析时,通常是编程语言(如Java、Python) + SQL,说明SQL是目前数据统计分析最为方便的编程工具。大数据体系中充斥着非常多的统计分析场景。所以,使用SQL去处理数据,在大数据中也是有极大的需求的。但是前面我们学习的非常重要的MapReduce,它只支持程序开发(Java、Python等),不支持SQL开发。所以,尽管MapReduce很重要,计算效率很高,由于不支持SQL开发,使用上就显得非常复杂。由此,Hive应运而生。原创 2023-09-12 11:15:09 · 484 阅读 · 3 评论 -
大数据技术之Hadoop:提交MapReduce任务到YARN执行(八)
到这一章结束,我们的Hadoop学习就告一段落了。不是说Hadoop技术学完了,而是可以说已经入门了。至于后续要深入学习也有了方向性。下一步我们将讲解Hive技术。过程中会补充MapReduce的一些知识点。最难不过坚持,加油!🧡。原创 2023-09-10 12:41:48 · 1302 阅读 · 0 评论 -
大数据技术之Hadoop:Yarn集群部署(七)
常用的进程启动命令如下:一键启动YARN集群:会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动会基于workers文件配置的主机启动一键停止YARN集群:在当前机器,单独启动或停止进程start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程历史服务器启动和停止start|stop。原创 2023-09-08 15:00:23 · 1767 阅读 · 0 评论 -
大数据技术之Hadoop:MapReduce与Yarn概述(六)
那么Yarn作为分布式资源调度组件,它具体有啥作用呢?换句话说什么是资源调度?我们为什么需要资源调度?服务器会运行多个程序,每个程序对资源(CPU内存等)的使用都不同程序没有节省的概念,有多少就会用多少。所以,为了提高资源利用率,进行调度就非常有必要了。YARN管控整个集群的资源进行调度,那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。比如,一个具体的MapReduce程序。原创 2023-09-08 10:07:02 · 1103 阅读 · 0 评论 -
大数据技术之Hadoop:HDFS存储原理篇(五)
HDFS分布式文件存储,通常是将1个文件拆分成多个部分,然后分别发送到不同服务器节点上。问题:不同的文件大小不一,粗暴的拆分然后放到服务器不同节点,会导致各个部分的大小也不一样,不利于统一管理。解决办法:设定统一的管理单位,block块。Block块,HDFS最小存储单位每个256MB(可以修改)这样可以将文件分成多个Block块,不同的Block块存入对应服务器。举例说明某个文件大小1G,那么理论上可以分为4个Block块。原创 2023-09-07 13:58:47 · 1173 阅读 · 0 评论 -
大数据技术之Hadoop:使用命令操作HDFS(四)
在HDFS中的命令,基本上就是照搬的Linux命令。只要你熟悉Linux命令,那么HDFS命令基本上一遍过。它的目录结构和linux非常相似。举个例子:Linux 中:HDFS中:或者 hdfs dfs -mkdir -p /opt/mynote所以说,是不是没什么区别?🫢那么我们这就引出了第一个HDFS操作命令。原创 2023-09-06 15:21:47 · 6474 阅读 · 0 评论 -
大数据技术之Hadoop:HDFS集群安装篇(三)
此为个人学习笔记,包含个人归纳总结以及结合了对网络资源的整理,初衷是为了自己复习巩固。如果能帮到各位是我的荣幸!该总结参考了黑马教程,感兴趣的也可以去观看相关视频。原创 2023-08-03 16:45:30 · 2756 阅读 · 1 评论 -
大数据技术之Hadoop(二)
使用分布式技术完成海量数据的处理,得到数据蕴藏的价值。大数据的5个主要特征一句话总结就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。由此得出大数据的三大核心工作海量数据的计算存储传输简单说,Hadoop包含:分布式数据存储技术(HDFS)分布式数据计算技术(MapReduce)分布式资源调度技术(YARN)从前面讲解中,我们可以清楚的发现,Hadoop包含了大数据三大核心任务的前两个:海量数据的计算和存储。原创 2023-08-03 11:29:35 · 842 阅读 · 0 评论 -
大数据之Hadoop(一)
我们先准备三台服务器,可以通过虚拟机的方式创建,也可以选择云服务器。关于如何创建虚拟机,我有写过相关文章。可以参考【编程环境安装】专题。原创 2023-08-03 09:30:09 · 1141 阅读 · 3 评论