hadoop中wordcount遍历子目录的情况

最新推荐文章于 2022-12-10 18:30:13 发布

雪峰庙

最新推荐文章于 2022-12-10 18:30:13 发布

阅读量1.9k

点赞数

分类专栏： mapreduce

mapreduce 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

hadoop中的wordcount示例,只能统计一个目录下的所有文件的内容，但是如果目录中还有目录，怎么办呢？

我实验了一下，不能计算目录中层级目录中的文件?

子目录只能用FileInputFormat.addInputPath

FileStatus[] fileStatus = fs.listStatus(path);
for(int i=0;i<fileStatus.length;i++){
if(fileStatus[i].isDir()){
Path p = new Path(fileStatus[i].getPath().toString());
getFile(p,fs);
}else{
System.out.println(fileStatus[i].getPath().toString());
}

复制代码

可以便利目录，然后采用addinputpath。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

雪峰庙

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

示例程序WordCount的执行

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

06-25

2858

面对大数据，大数据的存储和处理，就好比一个人的左右手，显得尤为重要。Hadoop比较适合解决大数据问题，很大程度上依赖其大数据存储系统，即HDFS和大数据处理系统，即MapReduce。而对于MapReduce，单词计数是最简单也是最能体现 MapReduce 思想的程序之一，可以称为 MapReduce 版 “Hello World“，该程序的完整代码可以在 Hadoop 安装包的“src/examples“目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数，如下图所示。本实验

Hadoop MapReduce WordCount

qq_43241439的博客

11-30

288

任务目标 1.准确理解Mapreduce的设计原理 2.熟练掌握WordCount程序代码编写 3.学会自己编写WordCount程序进行词频统计相关知识 MapReduce采用的是“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单来说，MapReduce就是”任务的分解与结果的汇总“。 1.Ma...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop遍历目录

kookbook的专栏

12-29

1309

package org.harvest.frank; import static org.hamcrest.CoreMatchers.is; import static org.junit.Assert.*; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStrea

1.0 Hadoop - 子目录

寒暄的博客

03-16

418

0.0 总目录 1.0.1前言:为什么会有大数据 1.1什么是Hadoop 1.2模块介绍 1.2.1什么是HDFS 1.2.2什么是MapReduce 1.2.2.1Job的提交（源码解读） 1.2.2.2Map-Task（源码解读） 1.2.2.3Reduce-Task（源码解读） 1.2.2.4eclipse开发MapReduce 1.2.2.5MapReduce实例 1...

hadoop的FileSystem类中,遍历文件目录的三种方法(源码和区别)

IAmListening的博客

04-30

5310

hdfs的java api中,可以调用FileSystem类来管理文件该类中有三个不同的方法(listStatusIterator, listLocatedStatus, listFiles),都是用于获取指定目录下的所有文件(文件夹) 那么这三个方法有什么区别呢? listStatusIterator方法和listLocatedStatus方法非常类似,都可以获取到所有的文件和文件夹. ...

HDFS遍历子目录 Hadoop fs -ls -R path

呼吸

03-24

2595

/hadoop fs -help cmd 可以看命令的介绍 hadoop fs -help ls 22/03/24 18:47:41 INFO conf.Configuration: Current hadoop.security.authentication = simple -ls [-d] [-h] [-R] [-t] [-S] [-r] [-u] [ …] : List the contents that match the specified file pattern. If path is n

第五节Hadoop学习案例——MapReduce案例（WordCount）

qq_53114527的博客

10-10

3892

第五节Hadoop学习案例——MapReduce案例（WordCount）

入门Hadoop的WordCount程序

bigfacesafdasgfewgf

11-19

1649

本篇文章主要说两部分：简单介绍MapReduce的工作原理；详细解释WordCount程序。

hadoop学习笔记（三）MapReduce入门 WordCount

Lee的学习笔记

12-20

403

之前的hdfs是对集群上的文件进行管理，进行增删改查等操作，只针对文件本身，不针对文件内容。而MapReduce则是对文件内容进行管理。 MapReduce采用的是“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单来说，MapReduce就是”任务的分解与结果的汇总“。大部分人接触MapRe...

Hadoop实验4：MapReduce编程

qq_60980343的博客

12-21

4069

目录一. 【实验准备】 1.工作目录 2.打开eclipse并配置工作空间二、准备工作 1. 新建项目 2. 准备测试数据 3. 添加 MapReduce 编程框架三、Map过程四、Reduce过程五、执行MapReduce任务六、实验结果七、准备工作 1. 新建项目 2. 准备relation.dat 3. 添加 MapReduce 编程框架 (1).MyMapper (2).MyReducer (3).MyRunner 八、Map过程九、Red

【无标题】Java分析数据

qq_67460132的博客

12-10

336

Java统计文本单词数量

HDFS 读取、写入、遍历目录获取文件全路径、append

架构师思考实践

07-08

1万+

1、从HDFS中读取数据 Configuration conf = getConf(); Path path = new Path(pathstr); FileSystem fs = FileSystem.get(conf); FSDataInputStream fsin= fs.open(path ); BufferedReader br =null; Strin

利用 Hadoop FileSystem listStatus 遍历文件目录实现HDFS操作

热门推荐

点点滴滴的博客

06-27

1万+

Hadoop 版本 2.7.0利用 Hadoop FileSystem listStatus 遍历文件目录实现HDFS操作

hadoop递归实现列出所有文件

yinbucheng的博客

04-26

3826

@Test public void listFiles() throws Exception { // listFiles列出的是文件信息，而且提供递归遍历 RemoteIterator files = fs.listFiles(new Path( "hdfs://hadoop0:9000/flow"), true); while (files.hasNext()) { L

Hadoop框架下的HDFS编程：【遍历目录下所有文件】在指定目录下查找包含某一内容的文件，并输出符合条件的文件名

kuronekonano的博客

10-13

5089

HDFS编程练习，首先要查找某一目录下是否包含某一内容，那么就要做遍历该目录下所有文件的操作。使用Path实例得到目的目录的路径下所有文件的路径，调用listStatus函数得到路径，返回的是一个FileStatus类的数组然后遍历该数组中所有文件的路径，通过getPath方法得到通过FileSystem类对象调用open方法打开数据流要从Hadoop文件系统读取文件，最简单的方法是使用j...

遍历hadoop文件夹

06-08

5110

/** * 得到一个目录(不包括子目录)下的所有名字匹配上pattern的文件名 * @param fs * @param folderPath * @param pattern 用于匹配文件名的正则 * @return * @throws IOException */ public static List getFilesUnderFolder(FileSystem

Shell遍历hadoop目录的批量操作

小工匠

01-05

1万+

需求背景每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。解决方法通过shell脚本通过MR程序（推荐，本篇不做论述）结论：经验证得出的结论shell脚本大约5~10S处理一个文件，比较慢，对于这样大量且分散的情况，不推荐，但可以提供一个思路。根据实际情况处理步骤

MapReduce和Hive支持递归子目录作为输入

thy822的专栏

05-18

6462

关键字：MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories 一般情况下，传递给MapReduce和Hive的input文件夹中不能包含子目录，否则就会报错。但后来增加了递归遍历Input目录的功能，这

hadoop读取目录下的文件列表

aa346359669的博客

01-08

1976

[code="java"] /** * @see 读取path下的所有文件 * @param path * @return * @throws IOException */ public static String[] getFileList(String path) throws IOException{ Con...

hadoop中wordcount测试