1.4 数据标注

最新推荐文章于 2025-03-14 20:12:45 发布

西西与东东

最新推荐文章于 2025-03-14 20:12:45 发布

阅读量1k

点赞数 8

分类专栏： # 实用机器学习文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51538412/article/details/143654484

版权

实用机器学习专栏收录该内容

6 篇文章

订阅专栏

1.4 数据标注（labelling）

提升标注？数据质量？还是模型？
是否有足够的标注？半监督学习
足够预算？众包，大家帮你标数据
弱监督学习

1.半监督学习（Semi-Supervised Learning）

> 主要解决数据仅有一小部分有标注，其他大部分数据没有标注

> 为了使用未标注的数据，对数据分布做了以下假设：

> 连续性假设（Continuity assumption）：相同特征的样本对应的标注也应该相同

> 聚类假设（Cluster assumption）：数据一般会有内部的聚类结构，在同一个类的数据也应该有相同的标签

> 流形假设（Manifold assumption) ：虽然一般收集的数据的维度都比较高（维度的值对应数据的特征数），但是实际上数据是分布在维度更低的流形空间。根据该假设，说明可以通过降维方法来得到更干净的数据

> 自学习算法（self-training）

> 算法步骤：

1.使用一小部分的有标注数据训练一个模型

2.用上一步训练好的模型预测未有标注数据的标签，这些标签称为伪标签（一般做法：这里仅仅留下模型比较确信的伪标签的数据keep highly confident predictions）

3.将上一步预测的伪标签的数据和原有标注数据进行合并形成一个更大的有标注的数据

4.使用上一步得到的更大的数据集再重新训练模型

5.以上4步重复迭代

2.主动学习（Active Learning）

> 主要解决的问题是把所有的数据都给数据标注工标记的成本过高，可以使用模型将其中模型无法准确预测的未标注数据传给数据标注工，从而减少成本

> 与半监督学习场景很类似，但是主动学习过程中有人的干预，主动学习会将最有意思（most interesting）的未标注数据传给数据标注元进行标注

> 如何选择最有意思的未标注数据呢？

> Uncertainty sampling：与半监督学习算法的第二步正好相反，选择的是模型特别不确信的伪标签数据，然后将这些数据传给数据标注工进行标注

3.主动学习+半监督学习（Active Learning + Self-training）

> 常混合以上两种方法来标注数据集中大量的未标注数据

1.使用有标注的数据来训练模型

2.使用训练好的模型来预测数据集中的未标注数据的标签（伪标签），其中模型很确信的未标注数据与原有标注的数据合并（半监督学习），模型很不确信的未标注数据传给数据标注工标注（主动学习），标注后的数据与原有标注数据合并

3.使用合并后的有标注数据再训练模型

4.以上3步重复迭代，直至数据集中的所有数据都已标注

4.弱监督学习（Weak Supervision)

> 半自动地生成标注：标注的正确率比人工标注低一点，但是也足够训练一个不错的模型

> Data programming（数据编程）：启发式编程来进行标注

例如：判断Youtube的评论是垃圾还是正常评论？

> 可以设置一些判断语句（规则），如果评论的词数≤5，那么是正常评论；如果评论中含有“check out"，那么为垃圾评论，等等一些规则来进行标注

5.小结

西西与东东

博客等级

码龄5年

44
原创

293
点赞

182
收藏

177
粉丝

关注

私信

热门文章

分类专栏

最新评论

PPT如何另存为输出高清图片
西西与东东: 客气，欢迎互相分享交流。
Word如何设置制表符制表位用Tab键进行排版
CSDN-Ada助手: 恭喜您写了这篇关于Word制表符设置的博客！看得出您对Word排版有很深的理解，希望能继续分享更多关于办公软件排版的小技巧。或许下一篇可以分享一些关于段落格式和行距设置的内容，这些对于排版也非常重要。期待您的下一篇！
PPT如何另存为输出高清图片
CSDN-Ada助手: 恭喜您的第三篇博客！标题“PPT如何另存为输出高清图片”非常吸引人。很高兴看到您持续创作，分享有关PPT的技巧和经验。通过您的文章，我们可以学到如何将PPT另存为高清图片，这对于许多人来说无疑是非常有用的。同时，您的标题也很吸引眼球，让读者忍不住想进一步了解。在下一步的创作中，我建议您可以考虑加入一些实例或是案例研究，以更具体的方式展示如何应用PPT另存为高清图片的技巧。此外，您还可以分享一些其他PPT相关的技巧或是与PPT有关的设计理念，这样读者可以更全面地了解如何创建出令人惊叹的演示文稿。再次祝贺您的创作，并期待您未来更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Origin图例排布修改与图例边框去除
CSDN-Ada助手: 恭喜您开始博客创作！这篇博客标题很有吸引力，而且内容也很实用，非常感谢您分享这些有用的技巧。希望您能继续写出更多优秀的博客，分享更多的经验和技术。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

西西与东东 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。