推导主要来自于对信息论课堂和相关资料的思考和整理,课上也没有系统地讲解,只是简单带过了,没有讲解底层逻辑,所以笔者试图整理出简单的推导过程。内容中如果有不对的地方欢迎指正和交流!
洛特卡定律的推导
碎碎念:由于课上讲得比较快,没有涉及底层逻辑的推导,因此又在网上找了资料,理解后整理如下。
二十世纪中期,美国科学研究昌盛,文献呈现爆炸式增长,因此如何管理文献,或者说如何在海量文献中发现具有价值的文献及作者更显得重要。
洛特卡受到植物学文献的启发,该文献发现以纵坐标为动植物的“属”,以横坐标为动植物的“种”,该曲线呈现出幂级递减趋势,同时取对数,可以近似的拟合成直线。
模型的建立:
-
初步判断x和y有反比的关系,不能确定y随x的递减速度,因此
设 x(y^a)=D(D为常数)
则x=D/(y^a)
两边同时取对数,得
log(x)=log(D)-log(y^a)
log(x)+alog(y)=log(D)=B(B为常数)
令log(x)=s, log(y)=t,
得 s+at=B可以拟合出线性的关系。
-
洛特卡将X轴作为作者所写的论文数目的对数,Y轴表示写了X篇论文的作者的频率的对数
设N为某领域文献总数,y(x)为发表x篇论文的作者数,则有y(1)+y(2)+…+y(t)=N