【13_hadoop】

走多远才算远

已于 2022-11-17 21:06:58 修改

阅读量254

点赞数

文章标签： hadoop 大数据 hdfs

于 2022-11-17 11:10:48 首次发布

本文链接：https://blog.csdn.net/weixin_47922102/article/details/127900223

版权

本文详细介绍了Hadoop HDFS的参数设置优先级，包括默认配置文件和生产配置文件，并探讨了HDFS的文件拆分、存储机制以及块属性。此外，还讨论了大数据处理流程和NameNode的角色，包括fsimage和编辑日志的合并以及DataNode的心跳与BlockReport机制。

摘要由CSDN通过智能技术生成

13_hadoop

hdfs参数设置的优先级：
1.默认配置文件
core-default.xml
hdfs-default.xml
mapred-default.xml
yarn-default.xml
2.生产配置文件
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
3.代码里面设置的参数
Configuration
优先级：3>2>1

1.使用java api 操作 hdfs 在创建文件夹
            /data/dt=20221114
            /data/dt=20221115
            /data/dt=20221116
    
2.使用java api 上传本地 wc.data 到上面三个目录下
3.使用java api 将
/data/dt=20221114/wc.data
/data/dt=20221115/wc.data
/data/dt=20221116/wc.data
目录下的文件移动到 指定目录 并进行改名字
/data/hive/20221114-01.data
/data/hive/20221115-01.data
/data/hive/20221116-01.data

创建文件夹 上传 改名
            path：
            hdfspath  上传的path
            localpath  本地path
            filename   文件名字
            renamepath  修改文件的路径的path
            renamesufname 修改后文件的结尾
            dt

hadoop jar /home/hadoop/project/DL2262-hdfsapi-1.0.jar
com.bigdata.HomeWork01
“/data/dt=” “file:home/hadoop” “1.log” “/data/flink” “-01.data” “20221117”

start.sh
if [ $# -lt 6 ];then
echo “Usage:put file to hdfs”
echo “Usage:$0

”
echo “Usage: is hdfs path”
echo “eg:$0 ‘/d

最低0.47元/天解锁文章

走多远才算远

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【13_hadoop】

1.fsimage+编辑日志文件定期拿过来进行葛冰备份推送给老大。第一块 128M 128M。第二块 128M 128M。管路文件系统的命名空间其实就是维护文件系统树的文件和文件夹。这样做的目的：生产上可能发生文件块丢失或损坏。2.每隔一定的时间发送一次 blockreport。1.块大小 128M blocksize。1.存储数据块和完成数据块的校验。1.文件进行拆分文件块。HDFS：负责存储数据。
复制链接

扫一扫