李沐【实用机器学习】1.4数据的标注

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

数据的标注——思维导图

一、半监督学习

有一小部分是由标注的,但很多是没有反馈的。
例如:一个网页,一小部分游览的用户有明确的标注,但绝大部分用户不知道他们干什么,所以没有反馈没有标注。所以怎么样用小的有标注的数据和很大的没有标注的数据一起利用起来。
假设:
1.连续性的假设:样本特征相似,那么这两个样本的标注是一样的
2.聚类假设:用户群体有类似的行为,如果数据有比较好的聚类结构,假设类里面的数据有相同的标号。
3.流行假设:实际上我的数据在本质上是低维上的数据,所以可以通过降维获得更干净的数据。

重要算法:自学习算法

在这里插入图片描述
1.怎么样选择置信样本
2.所以可以用比较贵的模型(比较深的神经网络),因为只是为了数据的标注,根本不会在线上去部署它。——》把它精度变高。

二、众包标注

在网上找很多人,人力过来标注数据
ImageNet数据集——>标注了上百万张数据。
比如很多数据公司,也都是做标注数据的服务。

需要考虑

1.需要设计相对比较简单的任务。(学历不同)
2.花销:所以还需要考虑数据需要生成多少任务,任务需要多少时间,两者相乘,算出需要多少钱。
3.标注质量

解决方法

1.在任务设计的时候,需要将任务复杂度降低。
在这里插入图片描述
2.有一些简单的简单的图片,是不需要人来标注的

主动学习

人会干预
会将比较重要的没有标注的数据给人的标注
算法:
1.在已有标号的数据去训练模型。然后去选择那些我特别不确信的数据,给人去标注
2.训练多个模型,让多个模型去投票说,到底哪些数据比较难,然后去选出那些数据给人标注

自学习和主动学习结合

在这里插入图片描述
3.质量控制
人会犯错
1.每一张图片每个任务发给多个标注工,但把任务扩大了
2.把结果不是很确信的再发给多人。

弱监督学习

半自动的生成标号,比人标的差一点,但好到也能训练一些模型
数据编程,用启发式的方法给数据标号
比如总结人得出标注的一些规律,放入程序中,让程序按照这些规则去标注。


总结

提示:这里对文章进行总结:
例如:
拿到更多标注
1.自训练(简单的数据)
2.众包,让人来表数据(难的数据)
3.弱监督学习(找到人判断标注的一般规律,让机器去标号)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值