机器学习笔记1

一简介

1.监督学习

其基本思想是,我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。

回归问题,即通过回归来推出一个连续的输出.

分类问题,其目标是推出一组离散的结果。

现在来个小测验:假设你经营着一家公司,你想开发学习算法来处理这两个问题:

  1. 你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你想预测接下来的三个月能卖多少件?

  2. 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过?

那这两个问题,它们属于分类问题、还是回归问题?

问题1是一个回归问题,因为你知道,如果我有数千件货物,我会把它看成一个实数,一个连续的值。因此卖出的物品数,也是一个连续的值。

问题2是一个分类问题,因为我会把预测的值,用 0 来表示账户未被盗,用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过,把它们定为0 或 1,然后用算法推测一个账号是 0 还是 1,因为只有少数的离散值,所以我把它归为分类问题。

以上就是监督学习的内容。

2.无监督学习

无监督学习,它是学习策略,交给算法大量的数据,并让算法为我们从数据中找出某种结构。

细分市场的例子,,你可以当作无监督学习问题,因为我只是拿到算法数据,再让算法去自动地发现细分市场。

垃圾邮件问题。如果你有标记好的数据,区别好是垃圾还是非垃圾邮件,我们把这个当作监督学习问题

二.单变量线性回归(Linear Regression with One Variable)

 预测住房价格:我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格,我要根据不同房屋尺寸所售出的价格,画出我的数据集

比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子。

更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格

还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值

监督学习中我们有一个数据集,这个数据集被称训练集

h代表学习算法的解决方案或函数也称为假设(hypothesis

h 是一个从x 到 y 的函数映射

要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设h

 

 2.1代价函数

 2.2代价函数的直观理解

 对于更复杂的、更高维、更多参数的情况

 2.3梯度下降法

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J 的最小值。

 这个算法是做什么的,以及梯度下降算法的更新过程有什么意义。梯度下降算法如下:

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小a。

这就是梯度下降算法,你可以用它来最小化任何代价函数J,不只是线性回归中的代价函数J。

结合梯度下降法,以及平方代价函数,我们会得出第一个机器学习算法,即线性回归算法。

 2.4梯度下降的线性回归

梯度下降算法和线性回归算法比较如图:

三、多变量线性回归

与单变量线性回归相比,主要区别是数据集的特征较多,其他部分类似

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值