DUTI算法的学习（从零开始）

最新推荐文章于 2024-08-20 00:18:14 发布

Yanpei_Guo

最新推荐文章于 2024-08-20 00:18:14 发布

阅读量638

点赞数 2

文章标签：人工智能随机梯度下降算法

本文链接：https://blog.csdn.net/weixin_48383957/article/details/113177431

版权

一、介绍

在机器学习当中，我们的数据可能存在着一些bug，这些bug可以分为两类，一类是和一般数据偏差较大的“粗大误差”，另一类是数据整体向某个方向偏差的“系统误差”。DUTI算法主要用于发现数据的bug，即“粗大误差”和“系统误差”。

为实现这一工作，需要机器学习算法，以及一些可靠数据

二、训练“捉虫”工具

2.1 三个输入

1、训练数据

所有训练数据的集合 ${(x_i,y_i)\}_{1:n}$ ，其中 $y_i$ 是 $x_i$ 的预测输出，可能存在错误。可以设 $y_i=f(x_i,\theta)$ ，其中 $\theta$ 是待求参数。当回归函数
记 $X=(x_1,x_2,\cdots,x_n)$ ， $Y=(y_1,y_2,\cdots,y_n)$

2、可靠数据

所有可靠数据的集合 $\{(\widetilde x_i,\widetilde y_i,c_i)\}_{1:m}$ ，这些数据是已经被专家证实可靠的，可靠程度 $c_i \ge 0$ 。记 $\widetilde X=(\widetilde x_1,\widetilde x_2,\cdots,\widetilde x_m)$ ， $\widetilde Y=(\widetilde y_1,\widetilde y_2,\cdots,\widetilde y_m)$

我们假设 $m < < n$ ，所以仅由可靠数据，是远远不够训练神经网络的

3、学习算法

学习算法是由训练数据得到的一组参数 $\theta \in R^p$ ， $p$ 根据需要来确定。

学习算法 $\Alpha (X,Y)= \argmin \limits_{\theta \in R^p} \frac 1n \sum \limits_{i=1}^n l(x_i,y_i,\theta)+\lambda \Omega(\theta)$ ，其中 $l(x,y,\theta)$ 为损失函数， $\Omega(\theta)$ 为正则项， $\lambda$ 为事先取定的系数。关于损失函数和正则项的具体解释可参见损失函数和正则项。通俗来讲， $\Alpha(X,Y)$ 得到的是 $\theta$ 的极大后验估计，即使得 $P(\theta|(X,Y))$ 最大的 $\theta$ 。

DUTI事实上是在求 $\theta$ 使得：
$P r e d i c t o r = A (X, Y^{'})$
$Predictor(\widetilde X)=\widetilde Y,Predictor(X)=Y'$
要让 $∣ ∣ Y - Y^{'} ∣ ∣$ 尽可能小。在这里，我们取L1型范数，即希望 $Y$ 和 $Y^{'}$ 之间的曼哈顿距离尽可能小。

接下来，就是要对其做一些松弛操作，好让其可解

2.2 回归捉虫

设 $\delta=Y-Y'$ ，则原问题等价于为：
$\begin{aligned} & \theta =\argmin \limits_{\beta \in R^p} \frac 1n \sum \limits_{i=1}^nl(x_i,y_i+\delta_i,\beta)+\lambda \Omega(\beta)&(2.1) \\ & l(\widetilde x_i,\widetilde y_i) =0 &(2.2)\\ & l(x_i,y_i)=0 &(2.3)\\ & \min||\delta||_1 &(2.4) \end{aligned}$
对 $(2.1)$ 右式做全微分， $(2.1)$ 式等价于
$g(\delta,\theta)=\frac 1n\sum \limits_{i=1}^n\nabla_{\theta}l(x_i,y_i+\delta_i,\theta)+\lambda \nabla_\theta \Omega(\theta)=0$
而 $(2, 2), (2.3), (2.4)$ 可松弛写成
$\min \limits_{\delta \in R^n,\theta} \frac 1m\sum \limits_{i=1}^mc_il(\widetilde x_i,\widetilde y_i,\theta)+\frac 1n\sum \limits_{i=1}^nl(x_i,y_i+\delta_i,\theta)+\gamma \frac {||\delta||_1}n \tag{2.5}$
其中 $\gamma$ 可以自行取值。
由 $g(\delta,\theta)=0$ 可得到隐函数 $\theta=\theta(\delta)$ 。将其代入 $(2.5)$ ，设函数的结果为 $O_{\gamma}(\delta)$ 。接下来，我们就可以通过梯度下降的方法，求 $O_{\gamma}(\delta)$ 的最小值

Yanpei_Guo

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DUTI算法的学习（从零开始）

DUTI算法的学习（从零开始）一、介绍在机器学习当中，我们的数据可能存在着一些bug，这些bug可以分为两类，一类是和一般数据偏差较大的“粗大误差”，另一类是数据整体向某个方向偏差的“系统误差”。DUTI算法主要用于发现数据的bug，即“粗大误差”和“系统误差”。为实现这一工作，需要机器学习算法，以及一些可靠数据二、训练“捉虫”工具2.1 三个输入1、训练数据所有训练数据的集合{(xi,yi)}1:n\{(x_i,y_i)\}_{1:n}{(xi,yi)}1:n，其中yiy_iyi是x
复制链接

扫一扫