python-共现矩阵(共词矩阵)计算

最新推荐文章于 2022-09-18 10:41:44 发布

孔胖

最新推荐文章于 2022-09-18 10:41:44 发布

阅读量8k

点赞数 5

分类专栏：实操笔记

本文链接：https://blog.csdn.net/xiuxiuxiu666/article/details/115899151

版权

实操笔记专栏收录该内容

46 篇文章 0 订阅

订阅专栏

共现矩阵(共词矩阵)：统计文本中两两词组之间共同出现的次数，以此来描述词组间的亲密度

code(我这里求的对角线元素为该字段在文本中出现的总次数)：

import pandas as pd


def gx_matrix(vol_li):
    # 整合一下，输入是df列，输出直接是矩阵
    names = locals()
    all_col0 = []   # 用来后续求所有字段的集合
    for row in vol_li:
        all_col0 += row
	    for each in row:  # 对每行的元素进行处理，存在该字段字典的话，再进行后续判断，否则创造该字段字典
	        try:
	            for each1 in row:  # 对已存在字典，循环该行每个元素，存在则在已有次数上加一，第一次出现创建键值对“字段：1”
	                try:
	                    names['dic_' + each][each1] = names['dic_' + each][each1] + 1  # 尝试，一起出现过的话，直接加1
	                except:
	                    names['dic_' + each][each1] = 1  # 没有的话，第一次加1
	        except:
	            names['dic_' + each] = dict.fromkeys(row, 1)  # 字段首次出现，创造字典


    # 根据生成的计数字典生成矩阵
    all_col = list(set(all_col0))   # 所有的字段（所有动物的集合）
    all_col.sort(reverse=False)  # 给定词汇列表排序排序，为了和生成空矩阵的横向列名一致
    df_final0 = pd.DataFrame(columns=all_col)  # 生成空矩阵
    for each in all_col:  # 空矩阵中每列，存在给字段字典，转为一列存入矩阵，否则先创造全为零的字典，再填充进矩阵
        try:
            temp = pd.DataFrame(names['dic_' + each], index=[each])
        except:
            names['dic_' + each] = dict.fromkeys(all_col, 0)
            temp = pd.DataFrame(names['dic_' + each], index=[each])
        df_final0 = pd.concat([df_final0, temp])  # 拼接


    df_final = df_final0.fillna(0)


    return df_final


if __name__ == '__main__':
    temp1 = ['狗', '狮子', '孔雀', '猪']
    temp2 = ['大象', '狮子', '老虎', '猪']
    temp3 = ['大象', '北极熊', '老虎', '猪']
    temp4 = ['大象', '狗', '老虎', '小鸡']
    temp5 = ['狐狸', '狮子', '老虎', '猪']
    temp_all = [temp2, temp1, temp3, temp4, temp5]
    vol_li = pd.Series(temp_all)
    df_matrix = gx_matrix(vol_li)
    print(df_matrix)

输入是整成这个样子的series
在这里插入图片描述
求出每个字段与各字段的出现次数的字典

最后转为df

在这里插入图片描述

补充一点：这里如果用大象所在列，除以大象出现的次数，比值高的，表明两者一起出现的次数多，如果这列比值中，有两个元素a和b的比值均大于0.8(也不一定是0.8啦)，就是均比较高，则说明a和b和大象三个一起出现的次数多！！！

即可以求出文本中经常一起出现的词组搭配，比如这里的第二列，大象一共出现3次，与老虎出现3次，与猪出现2次，则可以推导出大象，老虎，猪一起出现的概率较高。

也可以把出现总次数拎出来，放在最后一列，
则代码为：

# 计算每个字段的出现次数，并列为最后一行
    df_final['all_times'] = ''
    for each in df_final0.columns:
        df_final['all_times'].loc[each] = df_final0.loc[each, each]

放在上述代码df_final = df_final0.fillna(0)的后面即可
结果为
在这里插入图片描述
不好意思啊，我第一次放代码上来的时候中间有一块缩进错了，感谢下面提出问题的这位同学的提醒，现在是更正过的代码！！！

孔胖

关注

5
点赞
踩
47

收藏

觉得还不错? 一键收藏
22
评论
python-共现矩阵(共词矩阵)计算

共现矩阵(共词矩阵)：统计文本中两两词组之间共同出现的次数，以此来描述词组间的亲密度code(我这里求的对角线元素为该字段在文本中出现的总次数)：import pandas as pddef gx_matrix(vol_li): # 整合一下，输入是df列，输出直接是矩阵 names = locals() all_col0 = [] # 用来后续求所有字段的集合 for row in vol_li: all_col0 += row f.
复制链接

扫一扫

专栏目录