这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y)
以下是简化公式了目前简化公式:
1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
来自大鱼的BLOG: http://www.cnblogs.com/polugen/archive/2006/11/29/576213.html
2.MI=log(f(x,y)/N)-log((f(x)/N)*(f(y)/N))
其中:f(x,y)--在当前查找范围内共现的次数
f(x)----关键词在整个语料库中的出现次数
f(y)----上下文中的该词在整个语料库中的出现次数
N-------语料库大小