- 博客(4)
- 资源 (7)
- 收藏
- 关注
原创 awk基础
AWK程序:调用方式:1、命令行方式:awk [-F field-separator] 'commands' input-file(s) 2、将所有awk命令插入一个文件,并使其可执行,然后用awk命令解释器作为脚本首行,便于输入脚本名称来调用。#!/bin/awk -f 3、将所有awk命令插入一个单独的文件,然后调用:awk -f awk-script-file input-file(s)任
2016-05-23 17:56:49 539
原创 hive两大表关联优化试验
呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDFS Read: 587550313339 HDFS Write: 725372
2016-05-18 10:39:38 12258
原创 grep命令
grep家族grep:标准grep命令; Egrep:扩展grep,支持基本及扩展的正则表达式; Fgrep:快速grep。允许查找字符串而不是一个模式grep的一般格式: grep[选项]基本正则表达式[文件] 常用的grep选项: -a :将 binary 文件以 text 文件的方式搜寻数据 -c :计算找到 ‘搜寻字符串’ 的次数 -i :忽略大小写的不同,所以大小写视为相同
2016-05-13 16:41:35 633
原创 spark sql运行出错(Container killed on request. Exit code is 143)
错误描述:SQL三张表做join运行出错;用hive执行报错如下: Diagnostic Messages for this Task: Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usag
2016-05-06 16:05:16 56698
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人