- 博客(6)
- 收藏
- 关注
原创 hadoop streaming map端join
测试数据 # lixiang_list.txt(小表,可以在map端加载到内存中) #立项ID 立项名称 1800 心愿券测试003 1801 fw心愿单 1802 wtest心愿券0524 1803 HW心愿单01 1804 心愿券测试006 1805 心愿券测试007 1806 心愿券测试008 # ...
2018-05-29 17:32:17 577
原创 mapreduce 常用的map/reduce的key分隔符,自定义partition设置,
-D stream.map.output.field.separator :设置map输出中key和value的分隔符 -D stream.num.map.output.key.fields : 设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为value -D map.output.key.field.separator : 设置map输出中key内部的分割符——备注...
2018-05-25 14:39:03 2404
原创 hadoop streaming reduce端join的python两种实现方式
实现student和course数据表的join操作,以学生编号(sno)为连接字段 测试数据 student.txt文件 #以一个空格分隔 #学生编号 姓名 #sno sname 01 lily 02 tom 03 jack 04 rose course.txt文件 #以一个空格分隔 #学生编号 课程名 课程成绩 #sno cname ...
2018-05-25 14:33:34 1250
原创 hadoop streaming自定义partitioner方式
测试数据 1,2,1,1,1 1,2,2,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 1,2,3,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 目的 在map中数据以‘,’分隔,分隔后的前两列作为key,相同的key会被分到同一个reduce中。 配置参数说明 map.output.key.field.separator: map中ke...
2018-05-25 14:30:00 1543
原创 HDFS namenode HA(QJM方式)环境搭建实践
虚拟机环境 #hosts 192.168.75.20 node1 192.168.75.21 node2 192.168.75.10 node3 192.168.75.22 node4 192.168.75.23 node5 #进程说明 NameNode 名称结点 DataNode 数据结点 Journal...
2018-05-25 14:26:40 580
原创 HDFS笔记
block(数据块) 建立在磁盘之上,数据块的大小是磁盘块的整数倍,HDFS中的文件被划分为多个分块(chunk),一个小于一个块大小的文件不会占用整个块的空间。 1.x的HDFS块大小默认为64MB,2.x的HDFS块大小默认为128MB。 查看HDFS中文件的块信息 hadoop fsck / -files -blocks 使用数据块概念的优点 一个文件可以分成多...
2018-05-25 14:18:29 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人