Java 简单论文查重程序（SimHash+海明距离算法）

最新推荐文章于 2025-04-16 08:35:23 发布

阿猪12138

最新推荐文章于 2025-04-16 08:35:23 发布

阅读量1.3w

点赞数 20

文章标签： java 算法哈希算法

本文链接：https://blog.csdn.net/weixin_44911685/article/details/108785424

版权

本文档介绍了一个使用Java实现的论文查重程序，利用SimHash算法和海明距离计算文本相似度。项目是软件工程课程作业，主要包含SimHashUtils、HammingUtils和TxtIOUtils等类，支持文件输入输出并进行了单元测试和性能分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0、需求

题目：论文查重

描述如下：

设计一个论文查重算法，给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件，在答案文件中输出其重复率。

原文示例：今天是星期天，天气晴，今天晚上我要去看电影。
抄袭版示例：今天是周天，天气晴朗，我晚上要去看电影。

要求输入输出采用文件输入输出，规范如下：

从命令行参数给出：论文原文的文件的绝对路径。
从命令行参数给出：抄袭版论文的文件的绝对路径。
从命令行参数给出：输出的答案文件的绝对路径。

测试样例使用方法是：orig.txt 是原文，其他 orig_add.txt 等均为抄袭版论文。

测试文件的下载链接

也可以自己创建测试文件。

注意：答案文件中输出的答案为浮点型，精确到小数点后两位

1、前言

注：此项目是博主的软件工程课程的个人编程作业。
github地址（点击即可跳转）

1.1、开发环境

编程语言：Java 14
IDE：Intellij IDEA 2020.1
项目构建工具：maven
单元测试：JUnit-4.12
性能分析工具：JProfiler 9.2

依赖的外部 jar 包：汉语言处理包

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.5.4</version>
</dependency>

1.1、整体流程

1.2、类

MainPaperCheck：main 方法所在的类
HammingUtils：计算海明距离的类
SimHashUtils：计算 SimHash 值的类
TxtIOUtils：读写 txt 文件的工具类
ShortStringException：处理文本内容过短的异常类

1.3、核心算法

simhash+海明距离
具体可参考：

SimHash 原理与实现

2、接口的设计和实现

2.1、读写 txt 文件的模块

类：TxtIOUtils

包含了两个静态方法：

1、readTxt：读取txt文件

2、writeTxt：写入txt文件

实现：都是调用 Java.io 包提供的接口，比较简单，这里省略。

2.2、SimHash 模块（核心模块）

类：SimHashUtils

包含了两个静态方法：

1、getHash：传入String，计算出它的hash值，并以字符串形式输出，（使用了MD5获得hash值）

2、getSimHash：传入String，计算出它的simHash值，并以字符串形式输出，（需要调用 getHash 方法）

getSimHash 是核心算法，主要流程如下：

1、分词（使用了外部依赖 hankcs 包提供的接口）

List<String> keywordList = HanLP.extractKeyword(str, str.length());//取出所有关键词

2、获取 hash 值

String keywordHash = getHash(keyword);
           if (keywordHash.length() < 128) {
   
               // hash值可能少于128位，在低位以0补齐
               int dif = 128 - keywordHash.length();
               for (int j = 0; j < dif; j++) {
   
                   keywordHash += "0";
               }
           }

3、加权、合并

for (int j = 0; j < v.length; j++) {
   
             // 对keywordHash的每一位与'1'进行比较
             if (keywordHash.charAt(j) == '1') {
   
                 //权重分10级，由词频从高到低，取权重10~0
                 v[j] += (10 - (i /