本文档介绍我开发的自然语言处理——文本处理实验平台的系统功能及UI设计。大量实验都是基于本工具平台完成。
欢迎页面
语料分析
功能:简单统计语料类别下样本的分布情况,用饼图显示比例。可进一步增加其他详细的分析功能,如词分布分析,文档长度分析等。
语料处理
功能:
- 通过选择的原始语料目录和分词方法,点击“开始分词”,分词将输出到制定路径。右下侧输出信息框会显示完成信息。
- 通过分词结果,将本语料样本含有的词进行词典化,用于词文档矩阵的生成。
- 构建词文档矩阵,通过点击“构建词文档”按钮,词文档输出到制定路径。
- “输入文本”文本框可以输入文本或打开文件,测试观察各分词器的分词效果。
词文档矩阵格式如下: