小工匠

show me the code ,change the world

排序:
默认
按更新时间
按访问量

Shell遍历hadoop目录的批量操作

需求背景每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。解决方法 通过shell脚本 通过MR程序(推荐,本篇不做论述) 结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢...

2016-01-05 09:25:19

阅读数:5926

评论数:2

HIVE 查询显示列名 及 行转列显示

进入hive模式:set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertic...

2015-12-21 16:24:42

阅读数:8073

评论数:0

Hdfs 导入Hive,时间相关的字段 导入后为NULL

CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_SPEC_ID BIGINT, OFFER_NBR STRING, AREA_ID I...

2015-12-18 10:54:10

阅读数:3891

评论数:0

大数据文件分隔符

hadoop 文件分隔符

2015-12-18 10:14:19

阅读数:5836

评论数:0

监控Hbase是否可用的外挂程序

Java程序 运行在linux主机上, 通过shell脚本启动为进程。 Java程序中 通过定时任务,设置访问Hbase的时间间隔,设置告警规则,比如三次获取Hbase中的数据失败,则调用存过,遍历配置的告警号码,插入短信中间表,实现短信的发送。 项目结构如下 启动脚本分析根据服务器上JD...

2015-12-11 02:34:45

阅读数:3265

评论数:0

提示
确定要删除当前文章?
取消 删除