2018年05月_yang63515074

原创 hadoop streaming map端join

测试数据 # lixiang_list.txt(小表，可以在map端加载到内存中) #立项ID 立项名称 1800 心愿券测试003 1801 fw心愿单 1802 wtest心愿券0524 1803 HW心愿单01 1804 心愿券测试006 1805 心愿券测试007 1806 心愿券测试008 # ...

2018-05-29 17:32:17 577

原创 mapreduce 常用的map/reduce的key分隔符,自定义partition设置，

-D stream.map.output.field.separator ：设置map输出中key和value的分隔符 -D stream.num.map.output.key.fields ：设置map程序分隔符的位置，该位置之前的部分作为key，之后的部分作为value -D map.output.key.field.separator : 设置map输出中key内部的分割符——备注...

2018-05-25 14:39:03 2404

原创 hadoop streaming reduce端join的python两种实现方式

实现student和course数据表的join操作,以学生编号（sno）为连接字段测试数据 student.txt文件 #以一个空格分隔 #学生编号姓名 #sno sname 01 lily 02 tom 03 jack 04 rose course.txt文件 #以一个空格分隔 #学生编号课程名课程成绩 #sno cname ...

2018-05-25 14:33:34 1250

原创 hadoop streaming自定义partitioner方式

测试数据 1,2,1,1,1 1,2,2,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 1,2,3,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 目的在map中数据以‘,’分隔，分隔后的前两列作为key，相同的key会被分到同一个reduce中。配置参数说明 map.output.key.field.separator： map中ke...

2018-05-25 14:30:00 1543

原创 HDFS namenode HA(QJM方式)环境搭建实践

虚拟机环境 #hosts 192.168.75.20 node1 192.168.75.21 node2 192.168.75.10 node3 192.168.75.22 node4 192.168.75.23 node5 #进程说明 NameNode 名称结点 DataNode 数据结点 Journal...

2018-05-25 14:26:40 580

原创 HDFS笔记

block(数据块) 建立在磁盘之上，数据块的大小是磁盘块的整数倍，HDFS中的文件被划分为多个分块(chunk),一个小于一个块大小的文件不会占用整个块的空间。 1.x的HDFS块大小默认为64MB，2.x的HDFS块大小默认为128MB。查看HDFS中文件的块信息 hadoop fsck / -files -blocks 使用数据块概念的优点一个文件可以分成多...

2018-05-25 14:18:29 170

踏实做人,认真做事