60天计划第8天 hadoop基础

最新推荐文章于 2022-07-15 17:21:19 发布

睡觉不磨牙的蜗牛

最新推荐文章于 2022-07-15 17:21:19 发布

阅读量155

点赞数

分类专栏：大数据 #linux #hadoop 文章标签：大数据笔记整合 Hadoop

本文链接：https://blog.csdn.net/yanzhuang521967/article/details/94283208

版权

#linux 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

大数据

2 篇文章 0 订阅

订阅专栏

#hadoop

1 篇文章 0 订阅

订阅专栏

1.格式化的概念：
我从网上复制来了一段：它是指根据用户选定的文件系统（如FAT16 FAT32 NTFS EXT2 EXT3 EXT4等）在磁盘的特定区域写入特定数据，在分区中划出一片用于存放文件分配表、目录表等用于文件管理的磁盘空间。越新的文件系统越先进。 FAT16只能支持两个分区， FAT32单个文件的大小不能超过4G， NTFS是windows系统中最先进的系统，后面三个是linux系统中的文件系统。格式化的目的绝对不是为了把文件清空，而是写入分区。重新分区就相当于衣柜里面重新布局，必须把所有的衣服都取出来才行。所以在重新分区的时候就把所有文件都清除了。
原文：https://blog.csdn.net/pursue16/article/details/77621584
我总结了一下，不用看那么多，就四个字：重新布局！
2.linux如何修改名字。
用移动命令、把原有的覆盖就好了。
3.关闭防火墙：service firewalld stop（status）
4.启动节点。strat-dfs.sh和启动 start-yarn.sh（资源调度）。
这两个都是从start-all.sh分出来的。不过all这个命令已经不推荐使用了。推荐的是上面的两个。但是在事实上他们在脚本运行的时候还是走的all命令。下面配上start-dfs.sh和start-yarn.sh的脚本分析。
sbin/start-dfs.sh：
libexec/hadoop-config.sh //可以看到，已然要经过all的配置文件
sbin/hadoop-daemons.sh --config … --hostname … start namenode …
sbin/hadoop-daemons.sh --config … --hostname … start datanode …
sbin/hadoop-daemons.sh --config … --hostname … start sescondarynamenode …etc
sbin/start-yarn.sh：
libexec/yarn-config.sh
bin/yarn-daemon.sh start resourcemanager//资源调度管理器
bin/yarn-daemons.sh start nodemanager//节点管理器
（如果不感兴趣可以不看）
5.hdfs中是按照块来存放的。
hdfs是hadoop的文件系统，而每一块的大小是128M。关于为什么这么大，其实和磁盘的寻道时间有关系。首先明白一个概念：何为磁盘寻道：简单的来说寻找到就是找到所要的数据所在的位置。寻道时间大约是10ms左右。而读取文件的速率却在100M/s上下。为了保证寻道时间不占用太多，就规定寻道时间为读取时间的1%左右。采用2进制128是最靠近100M/s的，故此约定每一块的大小是128M（10毫秒等于0.01秒，0.01秒除以百分之一，读取时间为一秒，读取文件100M/s，所以能读100M，靠近100M的就是128，所以是128M）
6.hdfs存储中的文件目录，逻辑的。
7.HA=high availability。高可用。目的是：减少关机时间。所用方法：通过尽量缩短因日常维护操作（计划）和突发的系统崩溃（非计划）。
9.spof：single point of failure。单点故障。
10.辅助名称节点的作用。
备份名称节点。定时的从名称节点抓取信息进行备份。一台机器坏了，另一台机器马上启用。
11.大数据和普通数据有什么区别。
这里的区别说的不是说数据量的大小。而是数据读取的区别。存在这样的疑问：两者都是数据，都是从磁盘上进行读取，那么大数据和普通数据又有什么区别呢？
首先普通数据是线性读取，就是一点一点的读，从头到尾。而大数据对数据进行切块，一块一块的读，它的读取是并行的。它不是在名称节点访问，他是在名称节点所要访问的时候，发给了 DateNode。
数据的并行读取和多线程又不一样。线程是cpu的调度问题，它最终还是归于了磁盘的读取。
12.顺便说了一句MAPREDUCE。map和reduce，就是映射和化简。map算自己的部分，然后聚合在reduce中，进行化简。
13.Hadoop的网络拓扑图。最下面的那个图就是
层级：0,2.4,6个层级。
同一刀片机下的不同节点:0
同一机架上的不同刀片机：2
同一机房的不同机架：4
不同机房：6 在这里插入图片描述

睡觉不磨牙的蜗牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
60天计划第8天 hadoop基础

几天应该复习笔记第四天，第六天和今天的笔记。1.格式化的概念：我从网上复制来了一段：它是指根据用户选定的文件系统（如FAT16 FAT32 NTFS EXT2 EXT3 EXT4等）在磁盘的特定区域写入特定数据，在分区中划出一片用于存放文件分配表、目录表等用于文件管理的磁盘空间。越新的文件系统越先进。 FAT16只能支持两个分区， FAT32单个文件的大小不能超过4G， NTF...
复制链接

扫一扫

专栏目录