疫(zhái)情(jiā)期间,数据分析领域涌现出很多民间高手,数据玩家各显神通,或通过仿真程序调参,模拟病毒传播,强调不要出门对控制传播的重要贡献;或用自然语言处理工具+词云,直观展示每日新闻热词的演进变化,或现场教学如何爬取网站上的实时病例数据,用作进一步分析。
这些数据建模能力、数据开发技术固然是非常可贵,但是我们也发现,人人都能上手的、统计性、描述性的数据分析,同样能发挥出巨大的洞察作用和价值。
数据分析的七个方法
早在1月21号,大众对疫情的关注度刚开始爬升的时候,有公众号把各省市病例数据和往年春运迁徙数据做了一个“略显粗糙”的相关性分析,根据初步验证的正相关关系指出,湖北省内一些城市和武汉来往密切,疫情状态可能被低估,湖北省外的重点城市要加强机场或铁路方面的预警。这些分析就充分运用到了趋势监测、横向对比、维度拆解等来判断的。
如在科普号“回形针”的视频中,这样一个数据推导小环节令人印象深刻。
⁃首先,作者认为,湖北省内外的疫情发展状况差异很大,湖北省内的确诊诊断工作压力较大,很可能在数字上有滞后,因此要将湖北和非湖北数据“拆分来看”。
⁃下一步,他认为用总病死人数除以总确诊人数得到的病死率,是不准确的,快速增加的确诊病例数(分母)会稀释这个百分比,于是选择采取尽可能接近“同期群”的方式来处理。
⁃进而,