Java 简单论文查重程序(SimHash+海明距离算法)

本文档介绍了一个使用Java实现的论文查重程序,利用SimHash算法和海明距离计算文本相似度。项目是软件工程课程作业,主要包含SimHashUtils、HammingUtils和TxtIOUtils等类,支持文件输入输出并进行了单元测试和性能分析。
摘要由CSDN通过智能技术生成

0、需求

题目:论文查重

描述如下:

设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。

  • 原文示例:今天是星期天,天气晴,今天晚上我要去看电影。
  • 抄袭版示例:今天是周天,天气晴朗,我晚上要去看电影。

要求输入输出采用文件输入输出,规范如下:

  • 命令行参数给出:论文原文的文件的绝对路径
  • 命令行参数给出:抄袭版论文的文件的绝对路径
  • 命令行参数给出:输出的答案文件的绝对路径

测试样例使用方法是:orig.txt 是原文,其他 orig_add.txt 等均为抄袭版论文。

也可以自己创建测试文件。

注意:答案文件中输出的答案为浮点型,精确到小数点后两位

1、前言

1.1、开发环境

  • 编程语言:Java 14

  • IDE:Intellij IDEA 2020.1

  • 项目构建工具:maven

  • 单元测试:JUnit-4.12

  • 性能分析工具:JProfiler 9.2

  • 依赖的外部 jar 包:汉语言处理包

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.5.4</version>
    </dependency>
    

1.1、整体流程

1.2、类

  • MainPaperCheck:main 方法所在的类
  • HammingUtils:计算海明距离的类
  • SimHashUtils:计算 SimHash 值的类
  • TxtIOUtils:读写 txt 文件的工具类
  • ShortStringException:处理文本内容过短的异常类

1.3、核心算法

2、接口的设计和实现

2.1、读写 txt 文件的模块

类:TxtIOUtils

包含了两个静态方法:

1、readTxt:读取txt文件

2、writeTxt:写入txt文件

实现:都是调用 Java.io 包提供的接口,比较简单,这里省略。

2.2、SimHash 模块(核心模块)

类:SimHashUtils

包含了两个静态方法:

1、getHash:传入String,计算出它的hash值,并以字符串形式输出,(使用了MD5获得hash值)

2、getSimHash:传入String,计算出它的simHash值,并以字符串形式输出,(需要调用 getHash 方法)

getSimHash 是核心算法,主要流程如下:

1、分词(使用了外部依赖 hankcs 包提供的接口)

List<String> keywordList = HanLP.extractKeyword(str, str.length());//取出所有关键词

2、获取 hash 值

String keywordHash = getHash(keyword);
           if (keywordHash.length() < 128) {
   
               // hash值可能少于128位,在低位以0补齐
               int dif = 128 - keywordHash.length();
               for (int j = 0; j < dif; j++) {
   
                   keywordHash += "0";
               }
           }

3、加权、合并

for (int j = 0; j < v.length; j++) {
   
             // 对keywordHash的每一位与'1'进行比较
             if (keywordHash.charAt(j) == '1') {
   
                 //权重分10级,由词频从高到低,取权重10~0
                 v[j] += (10 - (i / 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值