mapReduce使用分布式缓存机制

最新推荐文章于 2019-08-07 21:51:50 发布

Inequality-Sign

最新推荐文章于 2019-08-07 21:51:50 发布

阅读量1k

点赞数

分类专栏： hadoop 文章标签： mapreduce

本文链接：https://blog.csdn.net/ymybxx/article/details/78617614

版权

本文探讨如何利用MapReduce的分布式缓存机制应对reduce阶段的数据倾斜问题。通过在map阶段预加载商品信息到缓存，实现采购信息与商品信息的高效合并。示例展示了将采购表和商品信息在map端进行合并，有效减少了reduce的处理负担。

摘要由CSDN通过智能技术生成

由于有时候reduce value值数量的不确定性可能会造成数据倾斜,可以考虑使用分布式缓存机制，仅用map进行输出。

mapreduce中具体的函数为

job.addCacheFile(new URI("file:///Users/inequality/tmp/input/join/pro.txt"));

此函数可以在map运行之前在工作目录加入缓存文件，供map使用

具体程序代码：实现采购信息和商品信息的map端合并

采购表
1001,20150710,1,2
1002,20100910,1,3
1002,20120912,2,3

商品信息
1,xiaomi
2,chuizi

运行结果
1001,20150710,1,2 mi6
1002,20100910,1,3 mi6
1002,20120912,2,3 chuizi

public class MapJoin {
   


    static class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Inequality-Sign

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop为MapReduce提供的分布式缓存机制

YF_Li123的博客

09-07

752

概述 Hadoop为MapReduce框架提供了一种分布式缓存机制，可用于Job、Map Task或Reduce Task之间的数据共享。分布式缓存机制会将需要缓存的文件分发到各个执行任务的子节点的机器中，这样各个节点就可以自动读取本地文件系统上的数据进行处理使用方式添加分布式缓存文件旧版本中DistributedCache已经被注解为过时，使用新版API方式如下 // 不同文件类型的添加方法 job.addArchiveToClassPath(archive)...

MapReduce 分布式缓存 map Side Join

weixin_43883574的博客

10-28

901

MapReduce 分布式缓存 文章目录MapReduce 分布式缓存前言一、Map Side join二、分布式缓存1.概念2.代码实现3.驱动类代码4.在Yarn上运行代码前言提示：以下是本篇文章正文内容，下面案例可供参考一、Map Side join map Side Join 就是在 map阶段执行join关联操作，并且程序也没有了reduce阶段。避免了 shuffle时候的繁琐。实现的的关键是使用MapReduce的分布式缓存。二、分布式缓存 1.概念 分布式缓存的使用必须使用M

1 条评论您还未登录，请先登录后发表或查看评论

mapreduce的map端的分布式缓存

lds_include

06-23

441

mapreduce的map端的分布式缓存 必要性：有的时候我们需要完成一些类似于数据库的两表join的效果，这个时候就能够通过将其中的一个表提前加载到map中来，这个时候有了将一张表的数据缓存到内存中来，方便map的快速读取。这里有两种方法可以实现这个效果，下面就一个一个讲解。注意:想要将表缓存进内存中，那么表的大小不能够超过缓存的大小，否则就会造成数据溢出，影响数据的准确性。步骤： 1...

mapreduce分布式缓存

叶晓江分布式计算技术笔记

01-07

698

概述作用应用场景示例作用将hdfs中的文件copy到本地map/reduce程序端，供map/reduce端代码使用应用场景大文件与小文件合并操作，如大文件10G，小文件10M，并且输入格式可以完全不一样示例主函数端代码public static void main(String[] args) throws Exception {

MapReduce的分布式缓存

派大星的技术人生

05-11

273

官网文档 http://hadoop.apache.org/docs/r2.6.5/hadoop-mapreduce-client/hadoop-mapreduce-client-core/DistributedCacheDeploy.html 作用（1）一个集群中运行多版本mr job （2）mr框架版本滚动升级（3）job启动速度提升 ...

基于MapReduce和分布式缓存的KNN分类算法研究.pdf

08-10

分布式缓存机制在这里起到了关键作用。通过利用Hadoop的分布式缓存，可以将计算过程中频繁访问的数据存储在本地节点，减少网络通信，提高数据读取速度。文章中提到，通过在Hadoop集群上进行实验，证明了提出的并行化...

MapReduce中的分布式缓存机制详解

MapReduce是一种用于大规模数据处理的编程模型，最初由Google提出，用于解决分布式计算中的大规模数据处理问题。它将大规模的数据集划分为多个小任务，由多台计算机并行处理，最后将各个小任务的结果合并得到最终的...

云计算分布式缓存及其应用实践.pdf

08-10

1. **云计算分布式缓存及应用实践**：本文件探讨的是云计算技术中的分布式缓存技术及其在实际应用中的案例和实施方法。分布式缓存作为一种存储技术，允许数据在多个节点间分布存储，提高了数据存取的并发性能，并能...

MapReduce中的分布式缓存（DistributedCache）

g1607058603的专栏

02-27

1069

1、简介 DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制，它会将需要缓存的文件分发到各个执行任务的子节点机器中，各个节点可以自行读取本地文件系统上的数据进行处理。 2、符号链接可以在原本HDFS文件路径上+“ #somename”来设置符号连接（相当于一个快捷方式）。这样在MapReduce程序中可以直接通过： File file = ...

Yarn（MapReduce 2.0）下分布式缓存（DistributedCache）的注意事项

weixin_34216107的博客

03-08

204

2019独角兽企业重金招聘Python工程师标准>>> ...

MR-5.MapReduce分布式缓存（Distribute Cache）

艾文

01-26

1899

DistributeCache是Hadoop的分布式文件缓存类，是一个提供给Map/Reduce框架的工具，用来缓存文件（文件，归档，jars等），DistributeCache将拷贝缓存的文件到slaves节点在任何job在节点上执行之前，每个存储在HDFS中的文件被放到缓存后都可以通过一个符号链接使用。通过该类主要可以完成两方面的事情（1）完成分布式文件共享（2

实验九 MapReduce实验：分布式缓存

WistWill的博客

03-22

871

9.1 实验目的理解序列化与反序列化；熟悉Configuration类；学会使用Configuration类进行参数传递；学会在Map或Reduce阶段引用Configuration传来的参数；理解分布式缓存“加载小表、扫描大表”的处理思想。 9.2 实验要求假定现有一个大为100G的大表big.txt和一个大小为1M的小表small.txt，请基于MapReduce思想编程实现判断小表...

Mapreduce中分布式缓存的使用注意点

zgt99的专栏

01-22

3559

job.addArchiveToClassPath(archive); // 缓存jar包到task运行节点的classpath中 job.addFileToClassPath(file); // 缓存普通文件到task运行节点的classpath中 job.addCacheArchive(uri); // 缓存压缩包文件到task运行节点的工作目录 job.addCache

13 - MapReduce之Reduce join以及map join分布式缓存

花&败

08-07

695

一：Reduce join 简介： ⑴原理： Map 端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。 Redu......

在mapreduce中做分布式缓存的问题

aoxin1658的博客

10-10

155

一、问题描述：主要解决一个问题，就是两个表做join，两个表都够大，单个表都无法装入内存。怎么做呢？思路就是对做join的字段做排序两个表都排序，然后针对一个表a逐行读取，希望能够在内存中加载到另一个表b的数据，针对表a当前记录希望b的对应记录在内存中，这就是缓存的作用，希望命中率越高越好！这个问题其实关键就是做缓存！如下的情形是针对两个表做join的字段是两个，比...

Hadoop入门(10)--分布式缓存DistributedCache

ifeng

07-31

1058

DistributedCache的原理执行MapReduce时，可能Mapper之间之间需要共享一些信息，若信息量不大，可以将起从HDFS加载到内存中，这就是Hadoop的分布式缓存机制实例统计在清单中的单词的次数 1 将单词清单加载到缓存中 2 输入第一行和单词清单中的单词进行逐个对比 3 对比后将对比的结果进行输出如何使用DistributedCache...

Hadoop分布式缓存

weixin_38292616的博客

07-17

403

DistributedCache是Hadoop提供的文件缓存工具，它能够自动将指定的文件分发到各个节点上，缓存到本地，供用户程序读取使用。它具有以下几个特点：缓存的文件是只读的，修改这些文件内容没有意义；用户可以调整文件可见范围（比如只能用户自己使用，所有用户都可以使用等），进而防止重复拷贝现象；按需拷贝，文件是通过HDFS作为共享数据中心分发到各节点的，且只发给任务被调度到的节点。本文将介绍Di...