【主动学习 02】Cost-Effective Active Learning from Diverse Labelers (IJCAI‘17)

最新推荐文章于 2024-07-06 15:38:54 发布

chad_lee

最新推荐文章于 2024-07-06 15:38:54 发布

阅读量218

点赞数

分类专栏：主动学习论文解读文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/yanguang1470/article/details/119929109

版权

论文解读同时被 2 个专栏收录

100 篇文章 6 订阅

订阅专栏

主动学习

8 篇文章 4 订阅

订阅专栏

Cost-Effective Active Learning from Diverse Labelers(IJCAI’17)

这篇文章指出在主动学习过程中标注数据时要考虑“Oracle are cost-sensitive”，有高质量、高成本的专家和低质量、低成本的专家可以选择来标注。这篇文章是的假设是：有多个专家，擅长的领域知识不同、质量也不同。

在这里插入图片描述

假设现在又一个小的有标签数据集 $L=\left\{\left(\mathrm{x}_{i}, y_{i}\right)\right\}_{i=1}^{n_{l}}$ ，有 $n_l$ 个样本；无标签样本集 $\left\{\mathrm{x}_{j}\right\}_{j=n_{l}+1}^{n_{l}+n_{u}}$ 有 $n_u$ 个样本，一般 $n_{l} \ll n_{u}$ ，还有一个标注专家待选集 $A=\left\{a_{1}, \cdots, a_{m}\right\}$ 。令 $\hat{y}_{i j}$ 时专家 $a_i$ 给样本 $x_j$ 提供的标签。

主动学习的每次迭代中，算法选择一个样本-专家对 $\left(\mathrm{x}^{*}, a^{*}\right)$ ，然后向专家 $a^*$ 查询 $x^*$ 的标签，选择样本和标注者都基于一个评价函数 $Q$ ：
$\left(\mathrm{x}^{*}, a^{*}\right)=\underset{\mathrm{x} \in U, a \in A}{\arg \max } Q(\mathrm{x}, a)$
所以任务就是设计评价函数 $Q(\mathrm{x}, a)$ ，来衡量 $(\mathrm{x}, a)$ 的cost-effectiveness。

如何设计函数 $Q$ ？要综合考虑三个因素：样本有用、标签准确、专家性价比。结合起来

1、Usefulness of the Instance

对于二分类问题，就选概率接近0.5的：
$r(\mathrm{x})=|p(y=1 \mid \mathrm{x})-0.5|\tag {1}$
用logistic regression来分类：
$\mid \mathrm{x})=\frac{1}{1+\exp (-f(\mathrm{x}))}$
其中 $f(\mathrm{x})=\mathrm{w}^{\top} \mathrm{x}+b$ 。对于多分类问题：
$r(\mathrm{x})=1-\max _{y \in \mathcal{Y}} p(y \mid \mathrm{x})\tag {2}$

2、Accuracy of the Labeling

$q_{i}\left(\mathrm{x}_{j}\right)=\frac{1}{t} \sum_{\mathrm{x}_{k} \in N\left(\mathrm{x}_{j}, t\right)} S\left(\mathrm{x}_{j}, \mathrm{x}_{k}\right) I\left[y_{k}==\hat{y}_{i k}\right]\tag {3}$

其中 $N\left(\mathrm{x}_{j}, t\right)$ 返回原始有标签数据集中 $x_j$ 最附近的 $t$ 个邻居， $S\left(\mathrm{x}_{j}, \mathrm{x}_{k}\right)$ 衡量 $x_j$ 个 $x_k$ 的相似度， $I[\cdot]$ 是指示函数，相等返回1，否则返0。这篇文章里就用欧氏距离。显然， $x_j$ 的 $t$ 个邻居中，更像 $x_j$ 的贡献更多的estimation of $q_{i}\left(\mathrm{x}_{j}\right)$ 。

3、Cost of the Query

高质量标注者高成本。标注者 $a_i$ 标注一个标签的成本 $c_i$ ：
$c_{i}=g\left(\frac{1}{n_{l}} \sum_{j=1}^{n_{l}} I\left[y_{j}==\hat{y}_{i j}\right]\right)\tag {4}$
其中 $\frac{1}{n_{l}} \sum_{j=1}^{n_{l}} I\left[y_{j}==\hat{y}_{i j}\right]$ 计算标注者 $a_i$ 在 $L$ 的准确率， $g(\cdot)$ 表述了成本和准确率之前的关系，比如： $g (z) = z$

三合一，Cost-Effectiveness

综合以上三点， $Q$ 函数就设计出来了：
$Q\left(\mathrm{x}_{j}, a_{i}\right)=\frac{q_{i}\left(\mathrm{x}_{j}\right) \cdot r\left(\mathrm{x}_{j}\right)}{c_{i}}\tag {5}$
选instance-labeler pair：
$\left(\mathrm{x}^{*}, a^{*}\right)=\underset{\mathbf{x}_{j} \in U, a_{i} \in A}{\arg \max } Q\left(\mathrm{x}_{j}, a_{i}\right)\tag {6}$
算法流程：

实验结果：

黑线ALC是每次只选在全局数据最可靠的标注者。在UCI数据集上本文的效果最好，在现实世界数据集上也没好太多。

chad_lee

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【主动学习 02】Cost-Effective Active Learning from Diverse Labelers (IJCAI‘17)

Cost-Effective Active Learning from Diverse Labelers(IJCAI’17)这篇文章指出在主动学习过程中标注数据时要考虑“Oracle are cost-sensitive”，有高质量、高成本的专家和低质量、低成本的专家可以选择来标注。这篇文章是的假设是：有多个专家，擅长的领域知识不同、质量也不同。假设现在又一个小的有标签数据集L={(xi,yi)}i=1nlL=\left\{\left(\mathrm{x}_{i}, y_{i}\right)\rig
复制链接

扫一扫