得到一个字的向量表示,能够保留字之间共现次数相关的信息。
先得到一个语料库的词库,然后计算一个字左边窗口内和其共同出现的次数的数量,值与距离相反。每个字会映射到一个整数index,这个index就映射到向量的index。比如‘these’ 映射到index 10,则在 are 这个字的向量表示里vec[10]就代表these出现在are的左边的“次数”(在统计时,每发现一次vec[10]就增加 1/distance, distance是these和are的距离)。
这样得到的矩阵是一个堆成矩阵,即these出现在are的左边和are出现在these的右边的次数相同。
然后用这个矩阵来训练glove模型,得到一个文件,一行代表一个字的向量表示,且用空白分开,一行中的第一个字段为具体的字,之后是这个字的向量表示。