对复旦语料库的预处理

最新推荐文章于 2024-01-21 03:45:09 发布

orisun

最新推荐文章于 2024-01-21 03:45:09 发布

阅读量874

点赞数

分类专栏： Search Engine

本文链接：https://blog.csdn.net/zhangchaoyangsun/article/details/8470206

版权

本文档详细介绍了对复旦语料库的预处理过程，包括删除重复文档、编码转换、文本过滤等步骤，旨在解决GBk编码问题、重复文档和不完整内容等瑕疵，以提升后续文本处理的准确性。

摘要由CSDN通过智能技术生成

在感谢复旦语料库整理人员辛勤劳动的同时，也要指出其工作上的瑕疵。

采用了gbk编码而不是UTF-8，这导致大多Linux用户不能直接使用。
语料库包含训练集和测试集，分别包含9000多个文档，却分别有近1500个文档是重复的。
训练集和测试集中的C35-Law中的部分文件是已经经过分词处理了的（分词结果很差），且部分又不是采用的GBK编码（这给编码转换工作带来麻烦）。
有些文章只有文章头部，而没有实际的内容。

step1.下载复旦语料库的训练集和测试集。解压。

step2.分别删除train和answer文件夹下的C35-Law文件夹。

step3.使用FindDupFile工具分别找到train和answer文件夹的重复文件，删除之。

step4.使用iconv.exe工具把文件从gbk编码转换到utf-8编码。

step5.为提高文本分类精度，删除所有长度小于500的文档。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;

public class DelSmallText {
	public void delSmallText(File srcFile){
		if(srcFile.isDirectory()){
			File[] childFiles=srcFile.listFiles();
			for(File child:childFiles){
				delSmallText(child);
			}
		}
		else if(srcFile.isFile()){
			StringBuffer content=new StringBuffer();
			try{
				FileReader fr=new FileReader(srcFile);
				BufferedReader br=new BufferedReader(fr);
				String line;
				while((line=br.readLine())!=nul

最低0.47元/天解锁文章

orisun

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对复旦语料库的预处理

在感谢复旦语料库整理人员辛勤劳动的同时，也要指出其工作上的瑕疵。采用了gbk编码而不是UTF-8，这导致大多Linux用户不能直接使用。语料库包含训练集和测试集，分别包含9000多个文档，却分别有近1500个文档是重复的。训练集和测试集中的C35-Law中的部分文件是已经经过分词处理了的（分词结果很差），且部分又不是采用的GBK编码（这给编码转换工作带来麻烦）。有些文章只有文章
复制链接

扫一扫

专栏目录