这个问题比较恶心,五一期间我调试了半天,包括将hadoop集群的timeout时间设置为超大,结果还是报下面的错
Task attempt_201705011003_0043_m_000094_0 failed to report status for 1200 seconds. Killing!
后来尝试了python的性能分析工具,去查找每行的性能,结果发现最耗时的是全角转半角和半角转全角函数,把这两行注释掉,再跑,还是报上面的那个错,服了
最后的解决方法也是最搞笑的方法,那就是在处理每行数据时,如果length($line)超过20000,就跳过。
再重新跑job,成功