文本文件单词的检索与计数（实验准备）

最新推荐文章于 2022-05-29 14:42:48 发布

爱夸233

最新推荐文章于 2022-05-29 14:42:48 发布

阅读量289

点赞数

本文链接：https://blog.csdn.net/weixin_46010627/article/details/114312732

版权

文本文件单词的检索与计数

实验内容
- 任务
- 要求
算法与数据结构
使用语言及运行环境
项目设计

实验内容

任务

建立一个文本文件，统计给定单词在文本文件中出现的总次数及位置；

要求

1.文本文件中每个单词不包含空格且不跨行，单词由字符序列构成且区分大小写，统计给定单词在文本文件中出现的总次数，检索输出的某个单词出现在文本中的行号、在该行中出现的位置。

2.设计数据量大的文本，进行子串的查询处理，分析算法运行的时间效率，对所有输出的匹配位置结果进行验证，以证明算法设计和实现的正确性。

3.用朴素模式匹配算法或KMP算法实现字符串定位；

4.可正确读取，保存文本；

算法与数据结构

将Java中的信息数据写入文本文件中

//需要导入的包
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;

public void writeEror_to_txt() {
	String errorFilePath = "文本路径";
    String writeDate="写入的内容";
    try{
        BufferedWriter writer = new BufferedWriter(new FileWriter(new File(errorFilePath),true));
        writer.write("\n"+writeDate);
        writer.close();
    }catch(Exception e){
        throw new RuntimeException("数据写入TXT文本出错");
    }

朴素模式匹配算法：

被搜索的字符串称为主串，待搜索的字符串称为模式串。朴素模式匹配算法的基本思想：

对主串的每一个字符作为子串开头，与模式串进行匹配。对主串做大循环，每个字符开头做模式串长度的小循环，直到匹配成功或全部遍历完成为止。

KMP算法：

KMP算法主要是对朴素的模式匹配算法的改进，假设有String A和String B,i为A的首个字母的下标，j为B的首个字母的下标，即i=0,j=0，现要在A中匹配B，若用朴素的模式匹配算法，则i需要不断的回溯，如A=acbxacbd，B=abcd，当i=3,j=3时，发现字符不相等，如果使用的是朴素的模式匹配算法，则需要将i回溯为1，即i=i-j+1,而j=0。

若用的是KMP模式匹配算法，i不需要回溯，只有j根据字符串B的具体情况回溯到相应位置。

KMP解决了朴素匹配模式算法中的i和j的回溯问题，提高了字符串匹配的效率