60天计划第8天 hadoop基础

2 篇文章 0 订阅
1 篇文章 0 订阅

1.格式化的概念:
我从网上复制来了一段:它是指根据用户选定的文件系统(如FAT16 FAT32 NTFS EXT2 EXT3 EXT4等)在磁盘的特定区域写入特定数据, 在分区中划出一片用于存放文件分配表、目录表等用于文件管理的磁盘空间。越新的文件系统越先进 。 FAT16只能支持两个分区, FAT32单个文件的大小不能超过4G, NTFS是windows系统中最先进的系统,后面三个是linux系统中的文件系统。格式化的目的绝对不是为了把文件清空,而是写入分区。重新分区就相当于衣柜里面重新布局,必须把所有的衣服都取出来才行。所以在重新分区的时候就把所有文件都清除了。
原文:https://blog.csdn.net/pursue16/article/details/77621584
我总结了一下,不用看那么多,就四个字:重新布局!
2.linux如何修改名字。
用移动命令、把原有的覆盖就好了。
3.关闭防火墙:service firewalld stop(status)
4.启动节点。strat-dfs.sh和 启动 start-yarn.sh(资源调度)。
这两个都是从start-all.sh分出来的。不过all这个命令已经不推荐使用了。推荐的是上面的两个。但是在事实上他们在脚本运行的时候还是走的all命令。下面配上start-dfs.sh和start-yarn.sh的脚本分析。
sbin/start-dfs.sh:
libexec/hadoop-config.sh //可以看到,已然要经过all的配置文件
sbin/hadoop-daemons.sh --config … --hostname … start namenode …
sbin/hadoop-daemons.sh --config … --hostname … start datanode …
sbin/hadoop-daemons.sh --config … --hostname … start sescondarynamenode …etc
sbin/start-yarn.sh:
libexec/yarn-config.sh
bin/yarn-daemon.sh start resourcemanager//资源调度管理器
bin/yarn-daemons.sh start nodemanager//节点管理器
(如果不感兴趣可以不看)
5.hdfs中是按照块来存放的。
hdfs是hadoop的文件系统,而每一块的大小是128M。关于为什么这么大,其实和磁盘的寻道时间有关系。首先明白一个概念:何为磁盘寻道:简单的来说寻找到就是找到所要的数据所在的位置。寻道时间大约是10ms左右。而读取文件的速率却在100M/s上下。为了保证寻道时间不占用太多,就规定寻道时间为读取时间的1%左右。采用2进制128是最靠近100M/s的,故此约定每一块的大小是128M(10毫秒等于0.01秒 ,0.01秒除以百分之一,读取时间为一秒,读取文件100M/s,所以能读100M,靠近100M的就是128,所以是128M)
6.hdfs存储中的文件目录,逻辑的。
7.HA=high availability。高可用。目的是:减少关机时间。所用方法:通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)。
9.spof:single point of failure。单点故障。
10.辅助名称节点的作用。
备份名称节点。定时的从名称节点抓取信息进行备份。一台机器坏了,另一台机器马上启用。
11.大数据和普通数据有什么区别。
这里的区别说的不是说数据量的大小。而是数据读取的区别。存在这样的疑问:两者都是数据,都是从磁盘上进行读取,那么大数据和普通数据又有什么区别呢?
首先普通数据是线性读取,就是一点一点的读,从头到尾。而大数据对数据进行切块,一块一块的读,它的读取是并行的。它不是在名称节点访问,他是在名称节点所要访问的时候,发给了 DateNode。
数据的并行读取和多线程又不一样。线程是cpu的调度问题,它最终还是归于了磁盘的读取。
12.顺便说了一句MAPREDUCE。map和reduce,就是映射和化简。map算自己的部分,然后聚合在reduce中,进行化简。
13.Hadoop的网络拓扑图。最下面的那个图就是
层级:0,2.4,6个层级。
同一刀片机下的不同节点:0
同一机架上的不同刀片机:2
同一机房的不同机架:4
不同机房:6在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
第一 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce;测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二 hdfs的原理和使用操作、编程 01-NN元数据管理机制.avi 02-NN工作机制2.avi 03-DN工作原理.avi 04-HDFS的JAVA客户端编写.avi 05-filesystem设计思想总结.av i 06-hadoop中的RPC框架实现机制.avi 07-hadoop中的RPC应用实例demo.avi 08-hdfs下载数据源码跟踪铺 垫.avi 09-hdfs下载数据源码分析-getFileSystem.avi 10-hdfs下载数据源码分析-getFileSystem2.avi 第三 mapreduce的原理和编程 01-hdfs源码跟踪之打开输入流.avi 02-hdfs源码跟踪之打开输入流总结.avi 03-mapreduce介绍及wordcount.avi 04-wordcount的编写和提交集群运行.avi 05-mr程序的本地运行模式.avi 06-job提交的逻辑及YARN框架的技术机制.avi 07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四 常见mr算法实现和shuffle的机制 01-复习.avi 02-hadoop中的序列化机制.avi 03-流量求和mr程序开发.avi 04-hadoop的自定义排序实现.avi 05-mr程序中自定义分组的实现.avi 06-shuffle机制.avi 07-mr程序的组件全貌.avi 08-textinputformat对切片规划的源码分析.avi 09-倒排索引的mr实现.avi 10-多个job在同一个main方法中提交.avi 第五 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-hadoop分布式集群HA模式部署.avi 06-hdfs--HA测试.avi 07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六 hbase hive 01-复习ha相关.avi 02-hive的元数据库mysql方式安装配置.avi 03-hive的使用.avi 04-hive的常用语法.avi 05-hql语法及自定义函数.avi 06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七 storm+kafka 006-kafka整合storm.avi 01-storm基本概念.avi 02-storm编程规范及demo编写.avi 03-storm的topology提交执行.avi 04-kafka介绍.avi 05-kafuka集群部署及客户端编程.avi 06-kafka消费者java客户端编程.avi 第八 实战项目 01-项目背景及技术架构.avi 02-主要技术选型.avi 03-flume介绍及演示.avi 04-行为轨迹增强处理流程.avi 05-样本url筛选模块开发.avi 06-行为轨迹增强模块1.avi 07-行为轨迹增强模块2.avi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值