- 博客(4)
- 收藏
- 关注
原创 HUE集成HDFS
背景:因为每次使用hdfs和hive的时候都需要进入hdfs的页面和hive的客户端才能查看并进行操作很麻烦,所以采用hue来集成hdfs和hive,这里先接受hue与hdfs的集成,下次在写hue与hive的集成 HUE的下载地址: https://github.com/cloudera/hue/tree/master 背景:因为每次使用hdfs和hive的时候都需要进入hdfs的页面和hive的客户端才能查看并进行操作很麻烦,所以采用hue来集成hdfs和hive,这里先接受hue与hdfs的集成,下次
2021-07-26 15:37:13 365
原创 MapReduce实现HBase的批量导入
1、业务上在hdfs上生成了批量的数据,现在我们需要将这些数据导入到hbase中 首先我们需要了解buload的步骤: a、生成HFile文件 b、将HFile文件load到hbase中 2、生成HFile的代码 package com.xiaofei.hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSy
2021-07-15 15:57:58 302
原创 Hadoop自定义排序实现topN
1、首先要了解实现hadoop的排序需要用到的接口 a、writableComparable 用于序列化和排序,主要用于map()前后,缓冲区排序,需要重写: comparaTor()、write()、readFiles()方法 b、writableComparator 用于分组排序,在reduce()执行前运行,需要重写: compare(),继承bean的抽象方法 2、数据分析 各个字段代表的含义:userId、dataTime、title、unitPrice、purchaseNums、orderId
2021-07-15 15:28:08 501
原创 Hadoop实现数据的二次排序
需求:对业务数据根据上行流量和上行总流量做一个排序处理,上行流量升序,上行流量相同的上行总流量升序 数据说明:7,8,9,10位置的数据类型分别为upFlow,dowFlow,upCountFlow,downCountFlow 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 游戏娱乐 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8
2021-07-15 10:45:07 311
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人