hdfs
文章平均质量分 59
ZoeYen_
这个作者很懒,什么都没留下…
展开
-
【笔记】JAVA API 访问 HDFS
1.获取HDFS文件系统public static FileSystem getFileSystem(){//读取配置文件Configuration conf = new Configuration();//获取文件系统对象(在hadoop集群上运行)//FileSystem fs = FileSystem.get(conf);//在本地运行URI uri = new URI("hdfs://原创 2017-10-18 22:59:08 · 580 阅读 · 0 评论 -
【笔记】序列化、Writable、comparable、WritableComparable
序列化将对象(文件)的状态信息转换成可存储的字节序列的过程。反过来就是反序列化。hadoop中的所有key/value都必须实现以下接口。Writable 接口public interface Writable{ //将对象状态信息写入二进制的DataOutput流(序列化) void write(DataOutput out) throws IOException;原创 2017-10-26 20:29:51 · 720 阅读 · 0 评论 -
使用文件模式,实现多文件上传至HDFS
文件模式:在某个单一操作中处理一系列文件。例如一个日志处理的MapReduce作业可能要分析一个月的日志量。如果一个文件一个文件或者一个目录一个目录的声明那就太麻烦了,可以使用通配符(wild card)来匹配多个文件(这个操作也叫做globbing)。 Hadoop提供了两种方法来处理文件组:public FileStatus[] globStatus(Path pathPatt原创 2018-01-01 18:33:57 · 905 阅读 · 0 评论 -
小文件合并
一、背景在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如果是10亿个文件,不可想象。所以要选择一种适合的方案来解决本项目的小文件问题。二、介绍本地 F:\dat原创 2018-01-01 21:43:37 · 894 阅读 · 0 评论