第四章小样本学习方法

最新推荐文章于 2025-03-24 20:57:51 发布

boyinan

最新推荐文章于 2025-03-24 20:57:51 发布

阅读量898

点赞数 1

分类专栏：人工智能安全文章标签：学习

本文链接：https://blog.csdn.net/weixin_43745221/article/details/132415163

版权

7 篇文章

订阅专栏

小样本学习目前针对监督学习，包括小样本分类和小样本回归。

弱监督学习：弱监督只包括分类和回归，小样本还涉及到强化学习，弱监督只能使用数据集的数据，小样本可以使用各种数据模型做先验知识。
非平衡数据：相对较少的数据，但是小样本是绝对的少的数据。
迁移学习/元学习：迁移学习和元学习都是解决小样本学习的一个途径。

PAC理论也可以用于分析训练集中样本数量对学习性能的影响；对于任意的ξ，只要样本数量m足够大或者假设空间的大小|H|足够小，泛化误差E(h)和经验误差F(h)的差异|E(h)-F(h)|≤ξ发生的可能性就非常大。

减小假设空间的复杂度可以减小对学习样本数量的需求，这也是小样本学习的依据。

数据层面：利用先验知识对数据集进行增强；模型层面：围绕如何缩小假设空间大小展开，包括多任务学习，假设学习，生成式建模等；算法层面：基于先验知识在给定的假设空间提升搜索效率，包括参数精炼。

对数据集进行变换
此方法不依赖其他数据集，依赖于数据类型。
语音数据：快放，慢放，适量的噪声注入，声谱修改；
图像数据：欧式变换（平移反转旋转等），相似变换（放缩扭曲等），放射变换，射影变换，裁剪和添加随机噪声；
文本类型：同义词替换，否定反义词替换，句型转换，添加噪声，随即删除字符等。词汇替换的方法使用人工字典；句型转换方法有主动句和被动句的替换；添加噪声的方法包括随机从文本删除单词，随机插入单词，随机替换单词等。
对相似数据集进行增强
如何使用相似的数据，迁移学习进行跨域学习实现数据增强，可以生成对抗网络GAN生成样本。
对未标注的数据集或弱标注数据集进行增强
未标注数据利用方法，第一种基于分类器进行可信度样本的扩充，可信度指的是判断一个样本归属时的某种依据。第二种是使用半监督学习，基于三大假设：平滑假设即相似的数据有相似的标签，聚类假设即同一聚类的数据有相似的标签，流形假设即同一流形结构下的数据有相同标签。
另一种标签传播算法LPA基本假设仍然是相似的数据应该具有相同的标签，根据点之间的连线表示权重选择权重比较大的边表示相似度的传播性质。