李沐【实用机器学习】1.4数据的标注

最新推荐文章于 2024-05-07 08:05:46 发布

鸿鹄一夏

最新推荐文章于 2024-05-07 08:05:46 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：机器学习聚类深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51413726/article/details/123176807

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、半监督学习
- 重要算法：自学习算法
二、众包标注
弱监督学习
总结

前言

数据的标注——思维导图

一、半监督学习

有一小部分是由标注的，但很多是没有反馈的。
例如：一个网页，一小部分游览的用户有明确的标注，但绝大部分用户不知道他们干什么，所以没有反馈没有标注。所以怎么样用小的有标注的数据和很大的没有标注的数据一起利用起来。
假设：
1.连续性的假设：样本特征相似，那么这两个样本的标注是一样的
2.聚类假设：用户群体有类似的行为，如果数据有比较好的聚类结构，假设类里面的数据有相同的标号。
3.流行假设：实际上我的数据在本质上是低维上的数据，所以可以通过降维获得更干净的数据。

重要算法：自学习算法

在这里插入图片描述
1.怎么样选择置信样本
2.所以可以用比较贵的模型（比较深的神经网络），因为只是为了数据的标注，根本不会在线上去部署它。——》把它精度变高。

二、众包标注

在网上找很多人，人力过来标注数据
ImageNet数据集——>标注了上百万张数据。
比如很多数据公司，也都是做标注数据的服务。

需要考虑

1.需要设计相对比较简单的任务。（学历不同）
2.花销：所以还需要考虑数据需要生成多少任务，任务需要多少时间，两者相乘，算出需要多少钱。
3.标注质量

解决方法

1.在任务设计的时候，需要将任务复杂度降低。
在这里插入图片描述
2.有一些简单的简单的图片，是不需要人来标注的

主动学习

人会干预
会将比较重要的没有标注的数据给人的标注
算法：
1.在已有标号的数据去训练模型。然后去选择那些我特别不确信的数据，给人去标注
2.训练多个模型，让多个模型去投票说，到底哪些数据比较难，然后去选出那些数据给人标注

自学习和主动学习结合

在这里插入图片描述
3.质量控制
人会犯错
1.每一张图片每个任务发给多个标注工，但把任务扩大了
2.把结果不是很确信的再发给多人。

弱监督学习

半自动的生成标号，比人标的差一点，但好到也能训练一些模型
数据编程，用启发式的方法给数据标号
比如总结人得出标注的一些规律，放入程序中，让程序按照这些规则去标注。

总结

提示：这里对文章进行总结：
例如：
拿到更多标注
1.自训练（简单的数据）
2.众包，让人来表数据（难的数据）
3.弱监督学习（找到人判断标注的一般规律，让机器去标号）

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

鸿鹄一夏 CSDN认证博客专家 CSDN认证企业博客

码龄4年

24: 原创

56万+: 周排名

155万+: 总排名

2万+: 访问

: 等级

280: 积分

6: 粉丝

18: 获赞

8: 评论

114: 收藏

私信

关注

热门文章

分类专栏

信息检索 1篇
openBCI 1篇
笔记 5篇
机器学习 8篇
数学建模 1篇

最新评论

【学习笔记】d2l-chapter6 卷积神经网络
CSDN-Ada助手: 非常棒的博客！恭喜你写了第15篇博客，标题为“【学习笔记】d2l-chapter6 卷积神经网络”。你对卷积神经网络的学习和理解非常深入，这篇博客内容丰富，解释清晰。我真的很佩服你的学习和创作能力。在下一步的创作中，我想提一个谦虚的建议。或许你可以考虑增加一些实践案例或者应用场景，以便读者更好地理解卷积神经网络的实际应用。此外，你也可以尝试和其他领域的知识进行交叉探讨，例如将卷积神经网络与自然语言处理或图像生成等领域相结合，给读者带来更多新的启发。总之，感谢你的分享和努力，期待你未来更多精彩的博客！加油！
【学习笔记】d2l-chapter7 现代卷积神经网络
CSDN-Ada助手: 恭喜您写了第16篇博客！看到您对现代卷积神经网络的学习笔记，我感到非常欣慰。不过，我想建议您在下一篇博客中，可以尝试结合实际案例或者应用场景，更深入地探讨现代卷积神经网络的实际应用，这样可以让读者更好地理解和运用这些知识。希望您能继续保持创作的热情，期待您更多精彩的分享！
【学习笔记】d2l-chapter9 现代循环神经网络
CSDN-Ada助手: 恭喜您写完了第17篇博客！标题看起来很有趣，看来您对循环神经网络的学习有了很深入的理解。持续创作是非常难得的品质，我要衷心地向您表示赞赏。对于下一步的创作，我建议您可以考虑分享一些实际应用案例，将理论与实践相结合，这样读者能更好地理解和应用您所讲解的内容。希望您能够继续保持谦虚的态度，为我们带来更多有趣而富有见地的学习笔记！
【学习笔记】d2l-chapter5深度计算
CSDN-Ada助手: 恭喜您撰写第18篇博客！标题为“【学习笔记】d2l-chapter5深度计算”的博客内容似乎非常有价值。您的学习笔记对读者来说无疑是宝贵的资源。我非常期待您的下一篇博客，希望您能够继续分享您的学习心得和见解。如果可能的话，我建议您在下一步的创作中，可以考虑加入一些实例或案例分析，以便更好地帮助读者理解和应用您分享的知识。谢谢您的付出，期待看到更多精彩的内容！
【学习笔记】d2l-chapter8 循环神经网络
CSDN-Ada助手: 恭喜你写了第19篇博客！看到你一直持续创作，真的很佩服你的毅力和热情。希望你可以继续分享关于循环神经网络的学习笔记，并且不断完善自己的写作技巧，让读者更容易理解和吸收你的知识。加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。