1.构建词表:
输入:
分词后的结果文件
用
保存词频信息
对空格进行拆分,统计词频:
按词频进行逆排序:
将上面的结果输出到输出文件中:
在训练集上生成词表:
2.生成label信息:
对label进行统计:
把对应的值输出到文件中:
打印出每个类别的数据量分布:
调用函数 生成文件:
以上~预处理的过程就进行完辽 ~
1.构建词表:
输入:
分词后的结果文件
用
保存词频信息
对空格进行拆分,统计词频:
按词频进行逆排序:
将上面的结果输出到输出文件中:
在训练集上生成词表:
2.生成label信息:
对label进行统计:
把对应的值输出到文件中:
打印出每个类别的数据量分布:
调用函数 生成文件:
以上~预处理的过程就进行完辽 ~