从某公众号看到两个题目, 逻辑挺简单, 现在记录下来, 有时间琢磨琢磨(数据在文末).
竞赛简介
使用搜狗语料库进行自动文本分类
数据描述
新闻语料中类别与目录的对应关系如下,共十大类别:
- C000007 汽车
- C000008 财经
- C000010 IT
- C000013 健康
- C000014 体育
- C000016 旅游
- C000020 教育
- C000022 招聘
- C000023 文化
- C000024 军事
在Data文件夹中有训练数据集(train)及测试数据集(test),其中train目录中是已经分类好的文档,每个类别中有6000个文档,而test目录中共包含20000个所有类别的文档,需要参赛者设计算法进行自动归类。
任务描述
- 构建优秀的分类器,将test目录中文档进行自动归类
- 提交最终分类结果,即将test中的各个文档自动划分到C000007、C000008、….、 C000024等目录后打包提交.
评价标准
评分算法:F1-Measure:
F