文本预处理/计算文章相似度（通过计算杰卡德系数计算文本相似度）

最新推荐文章于 2024-08-28 14:53:34 发布

Wake Up @Dionysus

最新推荐文章于 2024-08-28 14:53:34 发布

阅读量865

点赞数 1

分类专栏：自然语言处理NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_45385271/article/details/99732852

版权

本文介绍如何使用杰卡德系数来计算文本相似度，涉及哈工大停词表的下载及两篇文章的上传以进行相似度比较。

摘要由CSDN通过智能技术生成

运行程序需要，下载哈工大停词用表，并且需要手动上传两篇文章进行是相似度计算

    #-*- conding:utf-8 -*-
    import pprint
    from collections import Counter
    import jieba
    import numpy as np
    #数据抽取（从文件中读取）
    file_path='1.txt'
    def readFile(file_path):
        content = []
        with open(file_path, 'r',encoding="utf-8") as f:
            content = f.read()
    	return content
    #数据清理（分词去掉停用词）
    def cleanWord(content):
        # 分词