- 博客(11)
- 收藏
- 关注
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的动态扩容和缩容~个人学习&复习记录~PART-05
概念1、在不影响当前集群正常运行的情况下,对集群的主机的数量进行增加或者减少。
2022-11-13 15:38:22 655 1
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的Archive机制~个人学习&复习记录~PART-04
HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode占用内存,如果存在大量的小文件,它们会吃掉NameNode节点的大量内存Hadoop Archive可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件(类似于打包)1、Archive机制概念。
2022-11-13 11:41:44 589
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS的JavaAPI操作~个人学习&复习记录~PART-03
在使用Java来操作HDFS时,第一步必须获取HDFS的FileSystem对象,该对象代表整个HDFS系统,有个这个对象,就可以对HDFS的上的文件进行增删改查。需要先在Windows配置对应版本的hadoop环境。
2022-11-11 19:56:17 643
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS~个人学习&复习记录~PART-02
hadoop fs -getmerge /dir/*.txt /root/123.txt(合并下载,将HDFS根目录下的dir目录下的所有txt文件合并,并下载到本地root目录下,命名为123的文件)hadoop fs -mv /a.txt /dir(移动命令,将根目录下的a.txt文件,移动到,根目录下的dir文件夹内)hadoop fs -get /a.txt /root(跨文件系统下载,从HDFS下载到本地)复制。hadoop fs -cp /a.txt /dir/b.txt(复制命令)
2022-11-08 02:36:50 131
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据HDFS~个人学习&复习记录~PART-01
namenode存放文件的元数据信息,文件的block存储在哪些主机,权限,以及文件被切分成几个block,默认一个block128M,副本机制使得每个文件或者每个block存多个一模一样的,默认备份3个,牺牲空间来换取数据安全性,元数据是以文件为单位,一个文件一条元数据,而不是block。存放副本的放置策略:client如果是集群中的一台机,第一个副本则优先放client所在主机(就近原则),第二个副本会放在相邻的机架上,第三个副本会放在和第二个副本相同的机架上(机架放置策略)手动进入安全模式操作命令。
2022-11-03 11:12:58 206
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据Hadoop的搭建~个人学习&复习记录~PART-01
下载好Hadoop的.tar.gz的安装包后,解压到软件的目录下/export/server。4、在主节点node1上,将配置好的Hadoop安装包分发给其他主机,node2和node3。注意,第一次启动Hadoop之前,必须要对HDFS进行格式化,而且只能操作一次,切记。说明:设置好HDFS的主节点在哪台机器,HDFS数据的存放目录等,设置node1。1、配置回收站,在node1,修改core-site.xml文件,添加以下内容。前提:Hadoop集群搭建方案,这里要搭建HDFS和Yarn集群。
2022-10-25 00:33:12 588
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据zookeeper个人学习&复习记录—PART-01
node2启动 投自己1票 和其他主机交换投票信息,系统判断投票数是否过半,是,谁的myid最大,就是Leader node3启动 投自己1票 和其他主机交换投票信息,发现已经有Leader了,直接成为Follower。2.1 当Leader挂掉之后,系统会判断剩余的主机是否过半,是,则开始选举新Leader,否,则直接终止整个集群。a:比较哪台主机的数据最新,如果某台主机的数据最新,则直接当选Leader。b:如果所有主机的数据都是一样新的,则谁的myid最大,谁就是Leader。
2022-10-09 01:17:14 133
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-03
注:如果导入的脚本,有重名的函数和变量,回忆最后一次导入的函数和变量为主。result=$(ls) #执行shell命令,并赋值。result=`ls` #执行shell命令,并赋值。str=${array[*]} #数组转为字符串。result=$((1+2)) #执行数学运算。len=${#array[*]} #求数组长度。shell脚本之间的调用(bbb.sh导入aaa.sh)${str} #访问变量。
2022-10-04 22:25:13 397
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-02
break和continue与java一样,break跳过本层循环,continue跳过本次循环。7、shell的流程控制语句。
2022-10-02 14:37:39 618
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell脚本个人学习&复习记录—PART-01
与用户变量的区别是,用户变量只能用在当前脚本,或者调用该脚本的脚本,而环境变量则作用于整个操作系统。字符串:hello,'hello',"hello"环境变量存放路径:/etc/profile。1、创建shell脚本。3、shell的数据类型。查看环境变量命令:env。2、运行shell脚本。只有字符串和整型两种。4、shell的变量。
2022-09-25 02:14:31 500
原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据shell编程—简单入门
相信不少伙伴在招聘网寻找大数据开发相关工作或者面试的时候,80%的岗位都需要我们懂shell编程,所以shell对于我们的工作重要性不言而喻。1、Shell是一种编程语言,该语言底层是C语言2、Shell是一种解释型语言,和python类似3、shell以后主要用于脚本编写,通过脚本实现自动化部署和调度4、Shell是语言的统称,在Shell下面又细分了很多不同的Shell语言,默认用的Base Shell5、Shell脚本文件的后缀是.sh,不过也可以不写。......
2022-08-28 22:48:12 686
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人