MLlib - Linear Methods［to be Continued］

s亮

于 2015-04-25 16:31:34 发布

阅读量617

点赞数

分类专栏： ML Spark

ML 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Mathematical formulation

大多数机器学习算法的求解最终都转化为一个凸优化问题，例如逻辑斯特回归算法中采用极大似然估计权重参数 $w$ 。一般这个优化问题可以写作： $min_{w \in \mathbb R^d} \; f(w)$ ，而目标函数则如下：

f (w) : = λ R (w) ＋ 1 n \sum i = 1 n L (w; x i, y i)

$f(w):=\lambda R(w) ＋ \frac1n \sum_{i=1}^nL(w;x_i,y_i)$
其中向量

xi∈ℝd，i＝1,2...,n $x_i \in \mathbb R^d，i＝1,2...,n$ 是训练样本，

yi∈ℝd $y_i\in\mathbb R ^d$ 是样本对应的标签。如果

L(w;xi,yi) $L(w;x_i,y_i)$ 能够标示为

wTx $w^Tx$ 和

y $y$ 的线性函数，我们称这个方法是线性的。我们将在下面讨论MLlib中实现的一些线性方法。

目标函数 $\;f\;$ 有两部分： 正则项用于控制模型复杂度， 损失项刻画模型在训练数据上的误差。损失项 $L(w;.)$ 是一个典型的关于 $w$ 的凸函数。参数 $\;\lambda\ge0$ （代码中参数regParam）用于权衡 损失函数（训练误差）和 模型复杂度(避免过拟合)。

Loss functions

Regularizers

Optimization

在MLlib模块中，linear methods利用SGD和L-BFGS两种凸优化算法来求解目标函数。目前，大多数算法API都支持SGD，少数支持L-BFGS。关于相关优化算法详细见这里。

Classification

分类问题中常见的是2分类问题，其中两类样本通常分别称为正负样本。MLlib模块中有两种linear methods可以用来做分类：linear Support Vector Machines(SVMs)，logistic regression。其中前者只能用来做2分类，后者对于2分类和多分类问题都支持，且这两种方法都支持 $L_1$ 和 $L_2$ 正则项。在MLlib模块中，训练数据是使用一个包含标签数据的RDD来表示的，其中类别标签是从0开始的，0，1，2…。注意：在数学表达上，二分类中正负样本的标签是用 $+1$ ， $-1$ 表示的；但是在MLlib中，为了和多分类的标签统一，负样本的标签被替换为0。

Linear Support Vector Machines

Logistic regression

Logistic regression被广泛利用在二分类问题中，它是一种线性方法，损失函数由如下logistic loss给出：

L (w; x, y) : = l o g (1 + e x p (- y w T x))

$L(w;x,y):=log(1+exp(-yw^Tx))$
对于二分类问题，Logistic regression算法会输出一个模型。对于一个新的data point

x $\;x$ ，模型会根据如下logistic function来做预测

f (z) = 1 1 + e - z

$f(z)=\frac1{1+e^{-z}}$
其中

z=wTx $z=w^Tx$ 。一般情况下，如果

f(wTx)>0.5 $\;f(w^Tx)\gt0.5\;$ 预测样本为正，否则预测为负。注意：和linear SVMs不同，logistic regression模型

f(z) $\;f(z)\;$ 有概率上的意义(例如

f(z) $f(z)$ 表示

x <script type="math/tex" id="MathJax-Element-24">x</script>被预测为正样本的概率大小)。

to be Continued

Regression

Linear least squares, Lasso, and ridge regression

Streaming linear regression

Implementation (developer)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。