MapReduce概述&编程思想&WordCount案例

MapReduce是Hadoop的核心框架,用于大数据离线处理。其优点包括易于编程、良好扩展性和高容错性,但不适合实时、流式和DAG计算。MapReduce编程涉及Map和Reduce阶段,Map阶段解析数据,Reduce阶段进行汇总计算。WordCount案例展示了如何利用MapReduce统计词频,通过Map和Reduce任务实现分布式并行处理。
摘要由CSDN通过智能技术生成

1.mapreduce定义和优缺点?
定义:
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
优点:
(1)MapReduce易于编程
(2)良好的扩展性
(3)高容错性
(4)适合PB级以上海量数据的离线处理

缺点:
(1)不擅长实时计算
(2)不擅长流式计算
(3)不擅长DAG(有向图)计算

2.mapreduce的数据类型
常用的数据类型对应的Hadoop数据序列化类型
String --> Text
Long --> LongWritable
Int --> IntWritable
Byte --> ByteWritable
Float --> FloatWritable
Double --> DoubleWritable
Boolean --> BooleanWritable
Map --> MapWritable
Array --> ArrayWritable

3.MapReduce的核心编程思想
MapReduce核心编程思想
1)分布式的运算程序往往需要分成至少2个阶段
2&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值