当前搜索:

Shell遍历hadoop目录的批量操作

需求背景每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。解决方法 通过shell脚本 通过MR程序(推荐,本篇不做论述) 结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢...
阅读(4410) 评论(2)

HIVE 查询显示列名 及 行转列显示

进入hive模式:set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertic...
阅读(5805) 评论(0)

Hdfs 导入Hive,时间相关的字段 导入后为NULL

CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_SPEC_ID BIGINT, OFFER_NBR STRING, AREA_ID I...
阅读(2614) 评论(0)

大数据文件分隔符

hadoop 文件分隔符
阅读(4055) 评论(0)

监控Hbase是否可用的外挂程序

Java程序 运行在linux主机上, 通过shell脚本启动为进程。 Java程序中 通过定时任务,设置访问Hbase的时间间隔,设置告警规则,比如三次获取Hbase中的数据失败,则调用存过,遍历配置的告警号码,插入短信中间表,实现短信的发送。 项目结构如下 启动脚本分析根据服务器上JD...
阅读(2304) 评论(0)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 143万+
    积分: 2万+
    排名: 502
    WeChat
      欢迎关注我的公众号,干货只有干货,还有更多惊喜和资源在等着你
    博客专栏