配置glusterfs 支持MapReduce 计算

最新推荐文章于 2023-12-29 01:50:24 发布

xwsiat

最新推荐文章于 2023-12-29 01:50:24 发布

阅读量765

点赞数

分类专栏： MapReduce相关分布式存储

本文链接：https://blog.csdn.net/xiongwen341/article/details/12978163

版权

MapReduce相关同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

分布式存储

4 篇文章 0 订阅

订阅专栏

前言

hdfs存储系统原生支持mapreduce计算框架，但是其对外提供的访问接口并不支持严格POSIX语义，通俗点讲就是不能直接支持其他应用，例如HDFS不能够直接文件服务器，web服务器的存储系统。尽管后续的一些模块如fuse-dfs，webdav等尝试为HDFS提供标准接口的存储系统，但是经过多个组件的转化，存储系统效率受到了极大的影响。

一方面，考虑到存储系统和应用的多样性，一个既能够支持mapreduce计算，又能够支持传统应用程序（例如高性能计算，ftp，smtp和http）的存储系统显然具备成本和管理上的优势。

另一方面，随着mapreduce计算框架的普及和其在大数据云计算领域的影响，部分分布式文件系统从自身的发展需要出发，提供了支持mapreduce的功能。从技术角度讲，hadoop的开放接口也为其他文件系统支持MapReduce计算带来了便利。

目前为止，分布式文件系统如 glusterfs，ceph和pvfs等均已经实现了对mapreduce的支持。考虑到data locality的问题，这些文件系统在部分场景下性能肯定比HDFS差。

一，分布式文件系统glusterfs 如何支持MapReduce 计算

Hadoop集群中涉及的任意节点上（jobtracker and tasktracker），都必须用本地目录挂载到glusterfs的存储卷。其中，glusterfs存储节点可以与运行mapreduce程序的计算节点相同。

二，mapreduce存储切换（hdfs、glusterfs）

构建如2.1中配置的core-site.xml 文件

重新启动hadoop，替换各节点的core-site.xml配置文件。不能够做到无缝切换。

2.1 配置修改

<configuration>

<property>

    <name>fs.glusterfs.impl</name>

   <value>org.apache.hadoop.fs.glusterfs.GlusterFileSystem</value>

</property>

<property>

   <name>fs.default.name</name>

<value>glusterfs://172.16.0.20:9000</value>

</property>

<property>

    <name>fs.glusterfs.volname</name>

    <value>hadoopvol</value> //glusterfs 创建的存储卷名称

</property>

<property>

    <name>fs.glusterfs.mount</name>

    <value>/mnt/glusterfs</value>   //glusterfs 的本地挂载目录

</property>

<property>

   <name>fs.glusterfs.server</name>

    <value> fedora2</value>

</property>

<property>

    <name>quick.slave.io</name>

    <value>Off</value>

</property>

</configuration>

2.2 原理介绍

Glusterfs-hadoop.jar –Java API MapReduce jobs

The call Flow is shown in the left side –initiated from the hadoop job to the glusterfs java library through the FUSEmount and finally to the servers.

NOTE: The jar to load(glusterfs-hadoop-0.20.2-0.1.jar) is mentioned in hadoop configurationfile(conf/core-site.xml)

任意map或reduce中的文件读写操作都会经由 jar包，通过fuse+mount机制，提交到glusterfs的客户端，glusterfs客户端与glusterfs data server交互，获取数据，返回操作结果。