BigData
radio1111
这个作者很懒,什么都没留下…
展开
-
hadoop DRF机制及配置修改
```xml <property> <name>yarn.scheduler.capacity.resource-calculator</name> <value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value> <description> The ResourceCalculator implement.原创 2020-12-30 19:27:41 · 164 阅读 · 0 评论 -
hadoop distcp的命令和常用
一般使用hadoop -cp的命令来复制文件或者目录,但是hadoop -cp的效率对于处理大数据下的目录级别的copy并不能展现出高性能。接下来distcp的使用,就是为了增加copy情况下的并行度,真正实现parallel的copy。copy文件:hadoop distcp hdfs://namenode1/foo/file1 hdfs://namenode1/foo/file2copy目录:hadoop distcp hdfs://namenode1/foo1/ hdfs://namenod原创 2020-12-30 16:42:56 · 1646 阅读 · 0 评论 -
hdfs数据写入的过程
本篇翻译来自 Hadoop权威指南 2015版 Tom White著Anatomy of a File Write文件写入的剖析此处引入创建新文件,写入内容和关闭文件的案例来描述hdfs写入的相关模型。Client首先调用create方法来穿件DistributedFileSystem(DFS),DFS会根据RPC call来交互namenode,会让nn来创建一个不关联任何blocker的一个空文件,此时nn会检查nn node下的文件, 来确保这个文件不存在,并且client有合理的权限来操作原创 2020-12-30 14:49:53 · 332 阅读 · 0 评论 -
hdfs读取数据的过程
本文章翻译来自 Data Flow Chapter --Hadoop权威指南 2015版Tom White著1.Anatomy of a File Read.关于文件读取的剖析:接下里的逻辑权术了client如何与hdfs、namenode、datanode进行交互,介绍了client读取文件的步骤:(1)HDFS client首先调用一个open的方法来开启FileSystem的对象,对于hdfs来说,也是个DistributedFileSystem的一个实例,DFS会通过RPC与namenode原创 2020-12-30 13:44:46 · 347 阅读 · 0 评论 -
hdfs中的MiniDFSCluster
Hadoop 提供一个模拟HDFS小集群的依赖:Pom.xml: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-minicluster</artifactId> <version>${hadoop.version}</version> </dependency&g原创 2020-12-29 17:42:45 · 447 阅读 · 0 评论