Home&Freedoom°-CSDN博客

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习&复习记录~PART-05

概念1、在不影响当前集群正常运行的情况下，对集群的主机的数量进行增加或者减少。

2022-11-13 15:38:22 655 1

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的Archive机制~个人学习&复习记录~PART-04

HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会吃掉NameNode节点的大量内存Hadoop Archive可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件（类似于打包）1、Archive机制概念。

2022-11-13 11:41:44 589

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS的JavaAPI操作~个人学习&复习记录~PART-03

在使用Java来操作HDFS时，第一步必须获取HDFS的FileSystem对象，该对象代表整个HDFS系统，有个这个对象，就可以对HDFS的上的文件进行增删改查。需要先在Windows配置对应版本的hadoop环境。

2022-11-11 19:56:17 643

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS~个人学习&复习记录~PART-02

hadoop fs -getmerge /dir/*.txt /root/123.txt（合并下载，将HDFS根目录下的dir目录下的所有txt文件合并，并下载到本地root目录下，命名为123的文件）hadoop fs -mv /a.txt /dir（移动命令，将根目录下的a.txt文件，移动到，根目录下的dir文件夹内）hadoop fs -get /a.txt /root（跨文件系统下载，从HDFS下载到本地）复制。hadoop fs -cp /a.txt /dir/b.txt（复制命令）

2022-11-08 02:36:50 131

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据HDFS~个人学习&复习记录~PART-01

namenode存放文件的元数据信息，文件的block存储在哪些主机，权限，以及文件被切分成几个block，默认一个block128M，副本机制使得每个文件或者每个block存多个一模一样的，默认备份3个，牺牲空间来换取数据安全性，元数据是以文件为单位，一个文件一条元数据，而不是block。存放副本的放置策略：client如果是集群中的一台机，第一个副本则优先放client所在主机（就近原则），第二个副本会放在相邻的机架上，第三个副本会放在和第二个副本相同的机架上（机架放置策略）手动进入安全模式操作命令。

2022-11-03 11:12:58 206

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据Hadoop的搭建~个人学习&复习记录~PART-01

下载好Hadoop的.tar.gz的安装包后，解压到软件的目录下/export/server。4、在主节点node1上，将配置好的Hadoop安装包分发给其他主机，node2和node3。注意，第一次启动Hadoop之前，必须要对HDFS进行格式化，而且只能操作一次，切记。说明：设置好HDFS的主节点在哪台机器，HDFS数据的存放目录等，设置node1。1、配置回收站，在node1，修改core-site.xml文件，添加以下内容。前提：Hadoop集群搭建方案，这里要搭建HDFS和Yarn集群。

2022-10-25 00:33:12 588

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据zookeeper个人学习&复习记录—PART-01

node2启动投自己1票和其他主机交换投票信息，系统判断投票数是否过半，是，谁的myid最大，就是Leader node3启动投自己1票和其他主机交换投票信息，发现已经有Leader了，直接成为Follower。2.1 当Leader挂掉之后，系统会判断剩余的主机是否过半，是，则开始选举新Leader，否，则直接终止整个集群。a:比较哪台主机的数据最新，如果某台主机的数据最新，则直接当选Leader。b:如果所有主机的数据都是一样新的，则谁的myid最大，谁就是Leader。

2022-10-09 01:17:14 133

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-03

注：如果导入的脚本，有重名的函数和变量，回忆最后一次导入的函数和变量为主。result=$(ls) #执行shell命令，并赋值。result=`ls` #执行shell命令，并赋值。str=${array[*]} #数组转为字符串。result=$((1+2)) #执行数学运算。len=${#array[*]} #求数组长度。shell脚本之间的调用（bbb.sh导入aaa.sh）${str} #访问变量。

2022-10-04 22:25:13 397

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-02

break和continue与java一样,break跳过本层循环，continue跳过本次循环。7、shell的流程控制语句。

2022-10-02 14:37:39 618

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-01

与用户变量的区别是，用户变量只能用在当前脚本，或者调用该脚本的脚本，而环境变量则作用于整个操作系统。字符串：hello，'hello'，"hello"环境变量存放路径：/etc/profile。1、创建shell脚本。3、shell的数据类型。查看环境变量命令：env。2、运行shell脚本。只有字符串和整型两种。4、shell的变量。

2022-09-25 02:14:31 500

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据shell编程—简单入门

相信不少伙伴在招聘网寻找大数据开发相关工作或者面试的时候，80%的岗位都需要我们懂shell编程，所以shell对于我们的工作重要性不言而喻。1、Shell是一种编程语言，该语言底层是C语言2、Shell是一种解释型语言，和python类似3、shell以后主要用于脚本编写，通过脚本实现自动化部署和调度4、Shell是语言的统称，在Shell下面又细分了很多不同的Shell语言，默认用的Base Shell5、Shell脚本文件的后缀是.sh,不过也可以不写。......

2022-08-28 22:48:12 686

weixin_50217623的博客