MLlib - Linear Methods[to be Continued]

4 篇文章 0 订阅

Mathematical formulation

大多数机器学习算法的求解最终都转化为一个凸优化问题,例如逻辑斯特回归算法中采用极大似然估计权重参数 w 。一般这个优化问题可以写作:minwdf(w),而目标函数则如下:

f(w):=λR(w)1ni=1nL(w;xi,yi)

其中向量 xidi1,2...,n 是训练样本, yid 是样本对应的标签。如果 L(w;xi,yi) 能够标示为 wTx y 的线性函数,我们称这个方法是线性的。我们将在下面讨论MLlib中实现的一些线性方法。

目标函数f有两部分: 正则项用于控制模型复杂度, 损失项刻画模型在训练数据上的误差。损失项 L(w;.) 是一个典型的关于 w 的凸函数。参数λ0(代码中参数regParam)用于权衡 损失函数(训练误差)和 模型复杂度(避免过拟合)。

Loss functions

Regularizers

Optimization

在MLlib模块中,linear methods利用SGD和L-BFGS两种凸优化算法来求解目标函数。目前,大多数算法API都支持SGD,少数支持L-BFGS。关于相关优化算法详细见这里

Classification

分类问题中常见的是2分类问题,其中两类样本通常分别称为正负样本。MLlib模块中有两种linear methods可以用来做分类:linear Support Vector Machines(SVMs),logistic regression。其中前者只能用来做2分类,后者对于2分类和多分类问题都支持,且这两种方法都支持 L1 L2 正则项。在MLlib模块中,训练数据是使用一个包含标签数据的RDD来表示的,其中类别标签是从0开始的,0,1,2…。注意:在数学表达上,二分类中正负样本的标签是用 +1 1 表示的;但是在MLlib中,为了和多分类的标签统一,负样本的标签被替换为0。

Linear Support Vector Machines

Logistic regression

Logistic regression被广泛利用在二分类问题中,它是一种线性方法,损失函数由如下logistic loss给出:

L(w;x,y):=log(1+exp(ywTx))

对于二分类问题,Logistic regression算法会输出一个模型。对于一个新的data point x ,模型会根据如下logistic function来做预测
f(z)=11+ez

其中 z=wTx 。一般情况下,如果 f(wTx)>0.5 预测样本为正,否则预测为负。 注意:和linear SVMs不同,logistic regression模型 f(z) 有概率上的意义(例如 f(z) 表示 x <script type="math/tex" id="MathJax-Element-24">x</script>被预测为正样本的概率大小)。

to be Continued

Regression

Linear least squares, Lasso, and ridge regression

Streaming linear regression

Implementation (developer)

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值