自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 hadoop streaming map端join

测试数据 # lixiang_list.txt(小表,可以在map端加载到内存中) #立项ID 立项名称 1800 心愿券测试003 1801 fw心愿单 1802 wtest心愿券0524 1803 HW心愿单01 1804 心愿券测试006 1805 心愿券测试007 1806 心愿券测试008 # ...

2018-05-29 17:32:17 577

原创 mapreduce 常用的map/reduce的key分隔符,自定义partition设置,

-D stream.map.output.field.separator :设置map输出中key和value的分隔符 -D stream.num.map.output.key.fields : 设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为value -D map.output.key.field.separator : 设置map输出中key内部的分割符——备注...

2018-05-25 14:39:03 2404

原创 hadoop streaming reduce端join的python两种实现方式

实现student和course数据表的join操作,以学生编号(sno)为连接字段 测试数据 student.txt文件 #以一个空格分隔 #学生编号 姓名 #sno sname 01 lily 02 tom 03 jack 04 rose course.txt文件 #以一个空格分隔 #学生编号 课程名 课程成绩 #sno cname ...

2018-05-25 14:33:34 1250

原创 hadoop streaming自定义partitioner方式

测试数据 1,2,1,1,1 1,2,2,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 1,2,3,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 目的 在map中数据以‘,’分隔,分隔后的前两列作为key,相同的key会被分到同一个reduce中。 配置参数说明 map.output.key.field.separator: map中ke...

2018-05-25 14:30:00 1543

原创 HDFS namenode HA(QJM方式)环境搭建实践

虚拟机环境 #hosts 192.168.75.20 node1 192.168.75.21 node2 192.168.75.10 node3 192.168.75.22 node4 192.168.75.23 node5 #进程说明 NameNode 名称结点 DataNode 数据结点 Journal...

2018-05-25 14:26:40 580

原创 HDFS笔记

block(数据块) 建立在磁盘之上,数据块的大小是磁盘块的整数倍,HDFS中的文件被划分为多个分块(chunk),一个小于一个块大小的文件不会占用整个块的空间。 1.x的HDFS块大小默认为64MB,2.x的HDFS块大小默认为128MB。 查看HDFS中文件的块信息 hadoop fsck / -files -blocks 使用数据块概念的优点 一个文件可以分成多...

2018-05-25 14:18:29 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除