导语:在互联网领域, 认为90%的流量由10%的内容产生。很多技术策略也由此产生,本文作者针对这一现象做了数学论证,并对其中怎么科学使用该结论给出方法。
张炎泼 (xp),30 年软件开发经验,物理系背叛者,设计师眼中的美工,bug maker,vim 死饭,悬疑片脑残粉。曾就职新浪, 美团。前白山云,不是白云山 。
在互联网领域, 流行着这么一句话:
90%的流量由10%的内容产生.
缓存也由此产生: 只为最频繁访问的10%的内容提供更快的存储, 就可以以很低的成本提供尽可能好的服务质量.
一般符合这种互联网访问模型的曲线是下图这样的. 对每个访问的url做独立计数, 并按照从访问最多到最低排序:
这句是一个经验结论, 从它可以得出我们的频度分布公式: 也就是zipf 模型.
这个公式很好, 好就好在可以直接对其左右两边取对数后, 直接转换成了线性关系:
即: k的对数跟y的对数呈现线性关系. 线性太棒了, 简单又好用!