大数据第三次课笔记

第三节课
分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统

分布式系统异常的现象有哪些:分布式系统中有大量节点,且通过网络通信。单个节点的故障(进程crash,断电,磁盘损坏)网络通信也可能出现断网,高延迟的情况。

分布式异常的解决方法:最简单的办法,就是冗余或者复制集(Replication),即多个节点负责同一个任务,最为常见的就是分布式存储中,多个节点复杂存储同一份数据,以此增强可用性与可靠性。

分布式系统的类别:分布式数据存储,分布式计算,分布式文件系统,分布式消息,分布式应用,分布式分类账

分布式系统的优点:经济性(便宜)、速度快、分布广泛、可靠性好、扩展容易
分布式系统的缺点:软件少,网络可能饱和,保密数据可能被访问到

HDFS(Hadoop Distributed File System)Hadoop的分布式文件系统
HDFS的特点:
1.它是一个文件系统,用于存储文件,通过统一的命名空间(目录树)来定位文件。
2.它是分布式的,由多个服务器联合起来实现功能,集群中的服务器有各自的角色。

上传文件:

先创建文件

 vi hdfs.txt写文件

查看编写内容

 上传文件

 

上传结果:

 下载文件:

hadoop05里:

查看

也可以用主节点hadoop04免密登录hadoop06去下载

免密登录:

 下载:

在hadoop06里查看:

 

 查看当前目录信息(hadoop05):

 剪切文件:

先创建一个文件并查看:

 剪切并查看当前目录:

 最后再查看下opt目录

move.txt文件已经没有了。

 创建多级文件夹:

 查看:

 

 复制文件:

全部的HDFS命令行:

hdfs命令行
    (1)查看帮助
        hdfs dfs -help 
        
    (2)查看当前目录信息
        hdfs dfs -ls /
        
    (3)上传文件
        hdfs dfs -put /本地路径 /hdfs路径
        
    (4)剪切文件
        hdfs dfs -moveFromLocal a.txt /aa.txt
        
    (5)下载文件到本地
        hdfs dfs -get /hdfs路径 /本地路径
        
    (6)合并下载
        hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件
        
    (7)创建文件夹
        hdfs dfs -mkdir /hello
        
    (8)创建多级文件夹
        hdfs dfs -mkdir -p /hello/world
        
    (9)移动hdfs文件
        hdfs dfs -mv /hdfs路径 /hdfs路径
        
    (10)复制hdfs文件
        hdfs dfs -cp /hdfs路径 /hdfs路径

复制移动学到手,cpmv可以有
        
    (11)删除hdfs文件
        hdfs dfs -rm /aa.txt
        
    (12)删除hdfs文件夹
        hdfs dfs -rm -r /hello
        
    (13)查看hdfs中的文件
        hdfs dfs -cat /文件
        hdfs dfs -tail -f /文件
        
    (14)查看文件夹中有多少个文件
        hdfs dfs -count /文件夹
        
    (15)查看hdfs的总空间
        hdfs dfs -df /
        hdfs dfs -df -h /
        
    (16)修改副本数    
        hdfs dfs -setrep 1 /a.txt

HDFS的特性:
   分块存储(block)默认一块是128M,可以自定义配置。
   统一的抽象目录树
   统一管理,由namenode维护目录树和文件所对应的块和所在的datanode的服务器
   datanode存储管理,datanode是集群从节点,每个block可在多个datanode上存储3个副本,副本数量可修改
   一次写多次读,可追加不可修改
HDFS的优点:
   适合大数据处理:能够处理PB级数据,能够处理1万个节点规模
   擅长处理非结构化数据
   流式访问数据:一次写入、多次读取。文件一旦写入,不能修改,只能追加,能保证数据的一致性
   运行于廉价的商用机器集群上。通过从副本机制,提高可靠性
HDFS的缺点:
   不适合处理要求效率的数据访问
   无法高效的存储大量小文件,块的位置会储在namenode节点的内存中,namenode的内存是有限的,小文件存储的寻址时间会超过读取时间
   不支持并发写入和任意的修改
   HDFS适用做数据分析,不适合做网盘应用
在eclipse里操作HDFS:

配置hadoop,log4j和share里common与lib的jar包

进行删除操作:

 上传文件:

文件重命名:

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值