hadoop Mapreduce执行流程

最新推荐文章于 2022-08-09 16:28:11 发布

小博和小新

最新推荐文章于 2022-08-09 16:28:11 发布

阅读量204

点赞数 3

分类专栏： haddoop 文章标签： Haoop Maperduce 流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangboboshuai/article/details/103056888

版权

haddoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第一步：inputFormat

inputFormat 在hdfs（分布式文件系统）文件系统读取要进行计算数据输出给split

第二步：split

split把数据进行逻辑分割，切分成多个任务输出给RR（RecordReader）

第三步：RR（RecordReader）

RR将切分后的数据转换成key（键）value（值）进行输出
key：每一行行首字母的偏移量（到段首的差值）
value：每一行数据
输出给Map

第四步：Map

收到一条一条的数据（有多少行数据运行多少次，输出的次数根据业务需求而定）
Map的输出是 key value的list
输出给shuffle（partition）

---------------------------------------Map---------------------------------------------------------------

第五步：partition

partition：按照一定的规则对key value的list 进行分区
输出给Shuffle（sort）

第六步：sort

Sort：对每个分区内的分区数据进行排序（内部算法）。
输出给Shuffle（Combiner）

第七步：Combiner

Combiner：在Map端进行局部聚合（汇总）
目的是为了减少网络带宽的开销
输出给shuffle（Group）

第八步：Group

Group：将相同的key的key提取出来作为唯一的key
将相同的key对应的value提取出来组装成一个value的List
输出给Shuffle（Reduce）

------------------------------------Shuffle--------------------------------------------

第九步：reduce

reduce：根据需求对传入的数据进行汇总计算
输出给：outpoutFormat

第十步：outputFormat
outoutFormat：将最终的结果写入HDFS

------------------------------------reduce--------------------------------------------

小博和小新

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop Mapreduce执行流程

第一步：inputFormatinputFormat 在hdfs（分布式文件系统）文件系统读取要进行计算数据输出给split第二步：splitsplit把数据进行逻辑分割，切分成多个任务输出给RR（RecordReader）第三步：RR（RecordReader）RR将切分后的数据转换成key（键）value（值）进行输出key：每一行行首字母的偏移量（到段首的差值）value：每...
复制链接

扫一扫

专栏目录

小博和小新 CSDN认证博客专家 CSDN认证企业博客

码龄5年

8: 原创

76万+: 周排名

162万+: 总排名

2310: 访问

: 等级

107: 积分

10: 粉丝

13: 获赞

4: 评论

4: 收藏

私信

关注

热门文章

分类专栏

hbase 3篇
hive 3篇
haddoop 4篇

最新评论

HBaseAPI
dakesong: //连接数据库 Configuration conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2181"); Connection connection = ConnectionFactory.createConnection(conf); //读取表 Table hbase_comments = connection.getTable(TableName.valueOf("hbase_comments")); Scan scan = new Scan(); ResultScanner scanner = hbase_comments.getScanner(scan); for (Result result : scanner) { //遍历一行内的所有的列 Cell[] cells = result.rawCells(); for (Cell cell : cells) { if (Bytes.toString(CellUtil.cloneQualifier(cell)).equals("comments")); System.out.println(Bytes.toString(CellUtil.cloneFamily(cell))+":"+Bytes.toString(CellUtil.cloneQualifier(cell))+"-"+Bytes.toString(CellUtil.cloneValue(cell))); } } connection.close();
HBaseAPI
dakesong: //连接数据库 Configuration conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2181"); Connection connection = ConnectionFactory.createConnection(conf); //读取表 Table hbase_rate = connection.getTable(TableName.valueOf("hbase_rate")); Scan scan = new Scan(); scan.setStartRow("7u6UaIPfLC0".getBytes()); scan.setStopRow("1WBxfCRS2ag".getBytes()); ResultScanner scanner = hbase_rate.getScanner(scan); for (Result result : scanner) { System.out.println(Bytes.toString(result.getRow())); System.out.println(Bytes.toString(result.getValue("cf".getBytes(), "age".getBytes()))); } connection.close();
HBaseAPI
dakesong: //单值列的过滤器 SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("f1".getBytes(), "name".getBytes(), CompareFilter.CompareOp.NOT_EQUAL, "刘备".getBytes()); scan.setFilter(singleColumnValueFilter); ResultScanner scanner = myuser.getScanner(scan); for (Result result : scanner) { String rowkey = Bytes.toString(result.getRow()); String name = Bytes.toString(result.getValue("f1".getBytes(), "name".getBytes())); System.out.println(rowkey+" "+name); } }
HBaseAPI
dakesong: [code=html] //连接数据库 Configuration conf =new Configuration(); conf.set("hbase.zookeeper.quorum","node01:2181,node02:2181,node03:2181"); Connection connection=ConnectionFactory.createConnection(conf); Table myuser = connection.getTable(TableName.valueOf("myuser")); Scan scan=new Scan(); // 行的过滤器 // RowFilter rowFilter=new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,new BinaryComparator("0005".getBytes())); // scan.setFilter(rowFilter); // 列族的过滤器 // FamilyFilter familyFilter = new FamilyFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator("f2".getBytes())); //scan.setFilter(familyFilter); //列名的过滤器 // QualifierFilter name1 = new QualifierFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("name")); // scan.setFilter(name1); //单值列的过滤器 SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("f1".getBytes(

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。