微软发布“史无前例”的恶意软件数据集,设17万奖金征集预测算法

夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

一个“史无前例”的恶意软件感染数据集亮相了。

这个数据集来自微软,毕竟,他们的重要产品Windows,大概是全球遭受病虫害最频繁的软件了。

同时推出的,还有一场Kaggle竞赛:让你训练机器学习算法,来预测一台电脑是不是感染了恶意软件,俗称“中毒了没”。

640?wx_fmt=png

我们先来看看这份数据集究竟有多“史无前例”。

它包含的信息相当全面,共有60多项。

每一行数据都对应着一个MachineIdentifier,相当于设备ID,也都包含一个代表着真实值的标签HasDetections,显示这台设备有没有感染恶意软件。

同时,还包含大量可能能用来判断中没中毒的信息,比如设备的运行状况指标,以及本身软硬件环境,比如:系统、防火墙版本、装了几个杀毒软件、默认浏览器是哪一款、是个电脑还是个手机、显示器分辨率多少、处理器几核什么架构、内存多大、用的是不是固态硬盘……

甚至还包含这台机器是不是用来打游戏的、是不是触摸屏、带不带手写笔,以及代表国家和城市的数字代码等等。

这样的数据一共有多少条呢?答案是,在训练集里有近900万条测试集里近800万条。也就是说,微软提供了来自1600万台设备的信息,给你训练算法。

如果你对这么大的数字不敏感……我们换个衡量大小的方式。这个数据集以csv形态存储,一共8.47GB

这些数据,都来自Windows用户,由Windows系统本身记录和默认防火墙Windows Defender采集而来。当然,数据经过清洗,并不包含隐私信息。

640?wx_fmt=jpeg

庞大的数据集准备就绪,办竞赛也顺理成章。于是,也就有了Kaggle上的微软恶意软件预测竞赛

这个竞赛,由微软、美国东北大学、佐治亚理工大学联合主办。

参赛者需要做的,就是训练一个算法,为测试集里的每一台电脑,预测一个感染恶意软件的概率,范围在[0, 1]区间。

竞赛设置了2.5万美元(大约17万元)的奖金池。其中,第一名奖金1.2万美元,第二名7000美元,第三四五名分别是3000、2000、1000美元。

640?wx_fmt=png

这个奖金设置,对安全界人士来说可能太低了点。英特尔安全研究员Marco Figueroa就在Twitter上说:

640?wx_fmt=png

微软你是认真的吗?一个恶意软件预测竞赛才给2.5万美元奖金?应该至少30万美元起!

不过,参赛者们依然很热情。

从上周启动到量子位发稿时,已经有551支队伍参加了。

现在距离竞赛结束,还有两个多月,新队伍还在源源不断地涌进来。昨天才杀入战局的南京大学小哥哥(队名叫“杀”的那位),一次提交就排到了榜首。

640?wx_fmt=png

感兴趣?竞赛地址在这里:

https://www.kaggle.com/c/microsoft-malware-prediction/


年度评选报名

640?wx_fmt=jpeg

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值