![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
yang63515074
这个作者很懒,什么都没留下…
展开
-
HDFS笔记
block(数据块) 建立在磁盘之上,数据块的大小是磁盘块的整数倍,HDFS中的文件被划分为多个分块(chunk),一个小于一个块大小的文件不会占用整个块的空间。 1.x的HDFS块大小默认为64MB,2.x的HDFS块大小默认为128MB。查看HDFS中文件的块信息hadoop fsck / -files -blocks使用数据块概念的优点 一个文件可以分成多...原创 2018-05-25 14:18:29 · 161 阅读 · 0 评论 -
HDFS namenode HA(QJM方式)环境搭建实践
虚拟机环境#hosts192.168.75.20 node1 192.168.75.21 node2192.168.75.10 node3192.168.75.22 node4192.168.75.23 node5#进程说明NameNode 名称结点DataNode 数据结点Journal...原创 2018-05-25 14:26:40 · 564 阅读 · 0 评论 -
hadoop streaming自定义partitioner方式
测试数据1,2,1,1,11,2,2,1,11,3,1,1,11,3,2,1,11,3,3,1,11,2,3,1,11,3,1,1,11,3,2,1,11,3,3,1,1目的 在map中数据以‘,’分隔,分隔后的前两列作为key,相同的key会被分到同一个reduce中。配置参数说明map.output.key.field.separator: map中ke...原创 2018-05-25 14:30:00 · 1532 阅读 · 0 评论 -
hadoop streaming reduce端join的python两种实现方式
实现student和course数据表的join操作,以学生编号(sno)为连接字段测试数据student.txt文件#以一个空格分隔#学生编号 姓名#sno sname01 lily02 tom03 jack04 rosecourse.txt文件#以一个空格分隔#学生编号 课程名 课程成绩#sno cname ...原创 2018-05-25 14:33:34 · 1230 阅读 · 0 评论 -
mapreduce 常用的map/reduce的key分隔符,自定义partition设置,
-D stream.map.output.field.separator :设置map输出中key和value的分隔符 -D stream.num.map.output.key.fields : 设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为value -D map.output.key.field.separator : 设置map输出中key内部的分割符——备注...原创 2018-05-25 14:39:03 · 2392 阅读 · 0 评论 -
hadoop streaming map端join
测试数据 # lixiang_list.txt(小表,可以在map端加载到内存中) #立项ID 立项名称 1800 心愿券测试003 1801 fw心愿单 1802 wtest心愿券0524 1803 HW心愿单01 1804 心愿券测试006 1805 心愿券测试007 1806 心愿券测试008 # ...原创 2018-05-29 17:32:17 · 566 阅读 · 0 评论