数据挖掘竞赛题目 -- 文本分类

从某公众号看到两个题目, 逻辑挺简单, 现在记录下来, 有时间琢磨琢磨(数据在文末).

竞赛简介

使用搜狗语料库进行自动文本分类

数据描述

新闻语料中类别与目录的对应关系如下,共十大类别:

  • C000007 汽车
  • C000008 财经
  • C000010 IT
  • C000013 健康
  • C000014 体育
  • C000016 旅游
  • C000020 教育
  • C000022 招聘
  • C000023 文化
  • C000024 军事

在Data文件夹中有训练数据集(train)及测试数据集(test),其中train目录中是已经分类好的文档,每个类别中有6000个文档,而test目录中共包含20000个所有类别的文档,需要参赛者设计算法进行自动归类。

任务描述

  1. 构建优秀的分类器,将test目录中文档进行自动归类
  2. 提交最终分类结果,即将test中的各个文档自动划分到C000007、C000008、….、 C000024等目录后打包提交.

评价标准

评分算法:F1-Measure:

F
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值