在感谢复旦语料库整理人员辛勤劳动的同时,也要指出其工作上的瑕疵。
- 采用了gbk编码而不是UTF-8,这导致大多Linux用户不能直接使用。
- 语料库包含训练集和测试集,分别包含9000多个文档,却分别有近1500个文档是重复的。
- 训练集和测试集中的C35-Law中的部分文件是已经经过分词处理了的(分词结果很差),且部分又不是采用的GBK编码(这给编码转换工作带来麻烦)。
- 有些文章只有文章头部,而没有实际的内容。
step2.分别删除train和answer文件夹下的C35-Law文件夹。
step3.使用FindDupFile工具分别找到train和answer文件夹的重复文件,删除之。
step4.使用iconv.exe工具把文件从gbk编码转换到utf-8编码。
step5.为提高文本分类精度,删除所有长度小于500的文档。
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
public class DelSmallText {
public void delSmallText(File srcFile){
if(srcFile.isDirectory()){
File[] childFiles=srcFile.listFiles();
for(File child:childFiles){
delSmallText(child);
}
}
else if(srcFile.isFile()){
StringBuffer content=new StringBuffer();
try{
FileReader fr=new FileReader(srcFile);
BufferedReader br=new BufferedReader(fr);
String line;
while((line=br.readLine())!=nul