半夜被叫去公司处理故障。
最后发现是一个数据文件过大,结果导致server不断core,服务不能正常运做。
数据文件为什么过大?因为有数据不断的写入。为什么允许不断的写入?因为依赖了收集程序的清理。结果收集程序挂了,它也玩完了。
由此想到,一个稳定可靠的系统,设计初就要杜绝这种依赖外部控制才能保证持久稳定的设计,其实一个小小的设计就能控制这种情况。比如,这边的文件名,不要每次都用同一个,简单加上个时间后缀就可以了。
再说说这个告警系统,凭啥收集程序挂了,连个告警信息都没有呢,你不知道自己很重要吗?
总结server的标准:
1。别人可以挂,我不能挂。
2。我要是真挂了,之前一定要大肆宣扬一番,死的轰轰烈烈。
(再加两条修养)
3。决不允许吃的比拉的多,不然早晚撑死
4。没事就回家睡觉,不要占着茅坑不拉屎