服务器环境:hdfs
将要处理的数据送到指定的服务器交给专业团队处理
HDFS是一个immutable FS,意思是文件写入只能append,写过的内容不允许修改。
HDFS可以通过NFS mount,web,HDFS client访问
- mount:由于NFS的问题,mount只适用于简单的场景,如果需要ls大量的文件或者读取大文件都不稳定。但是小量小文件的读取是可以的。
- client:应用最主要的访问方式。
- web:web接口也可以做轻量的访问,但是web接口需要通过NameNode。
送 标
sudo scp -r lessthan50 服务器地址:/home/hhu/数据
删除文件夹
- rm -rf + 文件名 (加上-f表示强制删除,不提示确认删除,也可以直接用 rm -r )
ps:申请hdfs权限成功以后需要进行kerberos认证:hdfscli initkrb5 $username
操作之前需要进行kerberos认证
hdfscli initkrb5 hhu
送标要注意隐藏目录结构,mac本地会多出.DS_store
#删除 .DS_Store 文件 find . -name ".D*"|xargs sudo rm -rf
Tar 打包
tar cf 想要命名的文件夹名字 原来的文件夹名字
在这个文件夹下面,把该文件的lessthan50打包到这个文件夹
hadoop dfs -ls / 查询/目录下的所有文件和文件夹
hadoop dfs -ls -R /以递归的方式查询/目录下的所有文件
下载数据集:
hdfscli download [-fs] [-v...] [-t THREADS] HDFS_PATH LOCAL_PATH(linux上的local path)
上传数据集:
hdfscli upload <file_name_path> <hdfs_path>
然后所有人都可以使用了