小飞侠蹦蹦跳-CSDN博客

原创 HUE集成HDFS

背景:因为每次使用hdfs和hive的时候都需要进入hdfs的页面和hive的客户端才能查看并进行操作很麻烦,所以采用hue来集成hdfs和hive,这里先接受hue与hdfs的集成,下次在写hue与hive的集成 HUE的下载地址: https://github.com/cloudera/hue/tree/master 背景:因为每次使用hdfs和hive的时候都需要进入hdfs的页面和hive的客户端才能查看并进行操作很麻烦,所以采用hue来集成hdfs和hive,这里先接受hue与hdfs的集成,下次

2021-07-26 15:37:13 365

原创 MapReduce实现HBase的批量导入

1、业务上在hdfs上生成了批量的数据，现在我们需要将这些数据导入到hbase中首先我们需要了解buload的步骤： a、生成HFile文件 b、将HFile文件load到hbase中 2、生成HFile的代码 package com.xiaofei.hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSy

2021-07-15 15:57:58 302

原创 Hadoop自定义排序实现topN

1、首先要了解实现hadoop的排序需要用到的接口 a、writableComparable 用于序列化和排序，主要用于map()前后，缓冲区排序，需要重写： comparaTor()、write()、readFiles()方法 b、writableComparator 用于分组排序，在reduce()执行前运行，需要重写： compare(),继承bean的抽象方法 2、数据分析各个字段代表的含义：userId、dataTime、title、unitPrice、purchaseNums、orderId

2021-07-15 15:28:08 501

原创 Hadoop实现数据的二次排序

需求：对业务数据根据上行流量和上行总流量做一个排序处理，上行流量升序，上行流量相同的上行总流量升序数据说明：7，8，9，10位置的数据类型分别为upFlow，dowFlow，upCountFlow，downCountFlow 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 游戏娱乐 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8

2021-07-15 10:45:07 311

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人