2020CCFBDCI训练赛之室内用户运动时序数据分类baseline

赛题介绍

赛题名:室内用户运动时序数据分类

赛道:训练赛道

背景:随着数据量的不断积累,海量时序信息的处理需求日益凸显。作为时间序列数据分析中的重要任务之一,时间序列分类应用广泛且多样。时间序列分类旨在赋予序列某个离散标记。传统特征提取算法使用时间序列中的统计信息作为分类的依据。近年来,基于深度学习的时序分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。如何对时间序列中进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的序列归属到同一个集合,对于学术研究及工业应用具有重要意义。

任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家探索更为鲁棒的时序特征表述方法。

比赛链接https://www.datafountain.cn/competitions/484

数据简介

数据整理自网上公开数据集UCI(已脱敏),数据集涵盖2类不同时间序列,该类数据集广泛应用于时序分类的业务场景。

文件类别 文件名 文件内容
训练集 train.csv 训练数据集标签文件,标签CLASS
测试集 test.csv 测试数据集标签文件,无标签
字段说明 字段说明.xlsx 训练集/测试集XXX个字段的具体说明
提交样例 Ssample_submission.csv 仅有两个字段ID\CLASS

数据分析

本题是一个二分类的问题,通过对训练集数据的观察,发现数据量很小(210个)且拥有大量的特征(240个),并且对于训练数据的标签值,0和1的分布十分均匀(约各一半)。基于此,使用直接神经网络模型会导致需要训练的参数过多从而获得不理想的结果。而使用树模型,需要调整一些超参数来适应该数据,也比较繁琐。综合以上分析,本文考虑使用最简单的支持向量机来进行分类,结果表明也获得了比较好的结果。

Baseline程序

import pandas as pd
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值