机器学习

最新推荐文章于 2023-12-02 23:45:54 发布

xxin1994

最新推荐文章于 2023-12-02 23:45:54 发布

阅读量1k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

http://cdmd.cnki.com.cn/Article/CDMD-10614-1011193789.htm

推荐Stanford Lifeifei的CNN课(cs231n)

============================================

http://tieba.baidu.com/p/3013551686

一楼献给度娘

(7)

1楼
2014-04-30 01:09

举报 |个人企业举报垃圾信息举报

利_刃
知名人士

10

先从回归(Regression)问题说起。我在本吧已经看到不少人提到如果想实现强AI，就必须让机器学会观察并总结规律的言论。具体地说，要让机器观察什么是圆的，什么是方的，区分各种颜色和形状，然后根据这些特征对某种事物进行分类或预测。其实这就是回归问题。

如何解决回归问题？我们用眼睛看到某样东西，可以一下子看出它的一些基本特征。可是计算机呢？它看到的只是一堆数字而已，因此要让机器从事物的特征中找到规律，其实是一个如何在数字中找规律的问题。

例：假如有一串数字，已知前六个是1、3、5、7，9，11，请问第七个是几？
你一眼能看出来，是13。对，这串数字之间有明显的数学规律，都是奇数，而且是按顺序排列的。
那么这个呢？前六个是0.14、0.57、1.29、2.29、3.57、5.14，请问第七个是几？
这个就不那么容易看出来了吧！我们把这几个数字在坐标轴上标识一下，可以看到如下图形：

用曲线连接这几个点，延着曲线的走势，可以推算出第七个数字——7。
由此可见，回归问题其实是个曲线拟合(Curve Fitting)问题。那么究竟该如何拟合？机器不可能像你一样，凭感觉随手画一下就拟合了，它必须要通过某种算法才行。

收起回复

2楼
2014-04-30 01:15

思之舞: 占位
2014-4-30 09:01 回复
jack王year: 哈
2014-5-1 23:24 回复
paymingde: 人能看出来，是因为人接受了教育，概念，阿拉伯字母表，所以识别物体必需有参考，这个参考尽量信息量少，但至少可以区别其他已经建立过参考的事物。比如汽车，它的识别应该分解到局部，再有一个整体的数据，层层组织
2014-5-13 12:01 回复
741918902: 写的真多啊，其实运行主要依靠的是关联性对吧，由一想到二
2014-5-13 14:08 回复
风回千转: 机器人为什么不能随手画出来呢？具象的模糊系统明显比抽象的精确运算更有效率。
2014-5-25 10:24 回复
我也说一句
还有4条回复，点击查看

利_刃
知名人士

10

假设有一堆按一定规律分布的样本点，下面我以拟合直线为例，说说这种算法的原理。

其实很简单，先随意画一条直线，然后不断旋转它。每转一下，就分别计算一下每个样本点和直线上对应点的距离(误差)，求出所有点的误差之和。这样不断旋转，当误差之和达到最小时，停止旋转。说得再复杂点，在旋转的过程中，还要不断平移这条直线，这样不断调整，直到误差最小时为止。这种方法就是著名的梯度下降法(Gradient Descent)。为什么是梯度下降呢？在旋转的过程中，当误差越来越小时，旋转或移动的量也跟着逐渐变小，当误差小于某个很小的数，例如0.0001时，我们就可以收工 (收敛, Converge)了。啰嗦一句，如果随便转，转过头了再往回转，那就不是梯度下降法。

我们知道，直线的公式是y=kx+b，k代表斜率，b代表偏移值(y轴上的截距)。也就是说，k可以控制直线的旋转角度，b可以控制直线的移动。强调一下，梯度下降法的实质是不断的修改k、b这两个参数值，使最终的误差达到最小。
求误差时使用累加(直线点-样本点)^2，这样比直接求差距累加(直线点-样本点) 的效果要好。这种利用最小化误差的平方和来解决回归问题的方法叫最小二乘法(Least Square Method)。

问题到此使似乎就已经解决了，可是我们需要一种适应于各种曲线拟合的方法，所以还需要继续深入研究。
我们根据拟合直线不断旋转的角度(斜率)和拟合的误差画一条函数曲线，如图：

从图中可以看出，误差的函数曲线是个二次曲线，凸函数(下凸, Convex)，像个碗的形状，最小值位于碗的最下端。如果在曲线的最底端画一条切线，那么这条切线一定是水平的，在图中可以把横坐标轴看成是这条切线。如果能求出曲线上每个点的切线，就能得到切线位于水平状态时，即切线斜率等于0时的坐标值，这个坐标值就是我们要求的误差最小值和最终的拟合直线的最终斜率。
这样，梯度下降的问题集中到了切线的旋转上。切线旋转至水平时，切线斜率=0，误差降至最小值。

切线每次旋转的幅度叫做学习率(Learning Rate)，加大学习率会加快拟合速度，但是如果调得太大会导致切线旋转过度而无法收敛。

注意：对于凹凸不平的误差函数曲线，梯度下降时有可能陷入局部最优解。下图的曲线中有两个坑，切线有可能在第一个坑的最底部趋于水平。

微分就是专门求曲线切线的工具，求出的切线斜率叫做导数(Derivative)，用dy/dx或f'(x)表示。扩展到多变量的应用，如果要同时求多个曲线的切线，那么其中某个切线的斜率就叫偏导数(Partial Derivative)，用∂y/∂x表示，∂读“偏(partial)”。由于实际应用中，我们一般都是对多变量进行处理，我在后面提到的导数也都是指偏导数。

收起回复

3楼
2014-04-30 01:25

李杜白元: 学习率的解说有误。按照图4中的定义，固定的学习率将无法优化到极值。我建议修改为：切线每次旋转的幅度与上次切线的斜率的关系叫做学习率。
2014-5-2 22:34 回复
利_刃: 回复李杜白元 :恩，这个说法的确实不确切。学习率其实是个预先设置好的参数，不会每次变化，不过可以影响每次变化的幅度。
2014-5-4 22:05 回复
jinjie603809: 回复利_刃 :这些图是用什么软件画的？
2015-1-13 13:17 回复
a5663088: 学习——＞记忆——＞再次遇到——＞判断
2015-2-8 22:49 回复
俊零__影夜_: 学习率算是二阶导?
2015-2-11 13:20 回复
我也说一句
还有3条回复，点击查看

利_刃
知名人士

10

以上是线性回归(Linear Regression)的基本内容，以此方法为基础，把直线公式改为曲线公式，还可以扩展出二次回归、三次回归、多项式回归等多种曲线回归。下图是Excel的回归分析功能。

在多数情况下，曲线回归会比直线回归更精确，但它也增加了拟合的复杂程度。

直线方程y=kx+b改为二次曲线方程y=ax^2+bx+c时，参数(Parameter)由2个(分别是k、b)变为3个(分别是a、b、c)，特征(Feature)由1个(x)变为2个(x^2和x)。三次曲线和复杂的多项式回归会增加更多的参数和特征。

前面讲的是总结一串数字的规律，现实生活中我们往往要根据多个特征(多串数字)来分析一件事情，每个原始特征我们都看作是一个维度(Dimension)。例如一个学生的学习成绩好坏要根据语文、数学、英语等多门课程的分数来综合判断，这里每门课程都是一个维度。当使用二次曲线和多变量(多维)拟合的情况下，特征的数量会剧增，特征数=维度^2/2 这个公式可以大概计算出特征增加的情况，例如一个100维的数据，二次多项式拟合后，特征会增加到100*100/2=5000个。

下面是一张50*50像素的灰度图片，如果用二次多项式拟合的话，它有多少个特征呢？——大约有3百万！

它的维度是50*50=2500，特征数=2500*2500/2=3,125,000。如果是彩色图片，维度会增加到原来的3倍，那么特征数将增加到接近3千万了！

这么小的一张图片，就有这么巨大的特征量，可以想像一下我们的数码相机拍下来的照片会有多大的特征量！而我们要做的是从十万乃至亿万张这样的图片中找规律，这可能吗？
很显然，前面的那些回归方法已经不够用了，我们急需找到一种数学模型，能够在此基础上不断减少特征，降低维度。

于是，“ 人工神经网络(ANN, Artificial Neural Network)”就在这样苛刻的条件下粉墨登场了，神经科学的研究成果为机器学习领域开辟了广阔的道路。

收起回复

4楼
2014-04-30 01:32

wangmingfu0409: 粉墨登场不是这样用的，这里应该用闪亮登场
2014-5-4 13:58 回复
利_刃: 回复 wangmingfu0409 :
2014-5-4 22:06 回复
393318055: 回复 wangmingfu0409 :哈哈,想起了我的高中时光
2014-5-8 10:33 回复
lj745280746: 请问：特征数与维度有什么区别？特征数=维度^2/2这个公式怎么来的，有什么意义？
2014-6-15 21:23 回复
利_刃: 如果是a,b,c三个原始特征，那么转换为2次多项式为a^2 + a*b + a*c + b^2 + b*c + c^2，一共6项(6个特征)；如果是a,b,c,d四个原始特征，那么转换为a^2 + a*b + a*c + a*d + b^2 + b*c + b*d + c^2 + b*c + d^2，共10个特征，当原始特征数越来越大时，转换的特征数会趋于，可以用O(n^2)来表示。
2014-6-16 01:59 回复
我也说一句
还有9条回复，点击查看

利_刃
知名人士

10

神经元

有一种假说：“智能来源于单一的算法(One Learning Algorithm)”。如果这一假说成立，那么利用单一的算法(神经网络)处理世界上千变万化的问题就成为可能。我们不必对万事万物进行编程，只需采用以不变应万变的策略即可。有越来越多的证据证明这种假说，例如人类大脑发育初期，每一部分的职责分工是不确定的，也就是说，人脑中负责处理声音的部分其实也可以处理视觉影像。

下图是单个神经元(Neuron)，或者说一个脑细胞的生理结构：

下面是单个神经元的数学模型，可以看出它是生理结构的简化版，模仿的还挺像：

解释一下：+1代表偏移值(偏置项, Bias Units)；X1,X2,X2代表初始特征；w0,w1,w2,w3代表权重(Weight)，即参数，是特征的缩放倍数；特征经过缩放和偏移后全部累加起来，此后还要经过一次激活运算然后再输出。激活函数有很多种，后面将会详细说明。

举例说明：

X1*w1+X2*w2+...+Xn*wn这种计算方法称为加权求和(Weighted Sum)法，此方法在线性代数里极为常用。加权求和的标准数学符号是，

不过为了简化，我在教程里使用女巫布莱尔的符号

表示，刚好是一个加号和一个乘号的组合。

收起回复

5楼
2014-04-30 01:40

litoFAT: 楼主，有点小错误，55/5=11
2015-1-12 11:24 回复
ourfield: 回复 litoFAT :cute
2015-1-12 14:58 回复
litoFAT: 回复 ourfield :我是小白，还请指教啊
2015-1-13 08:53 回复
俊零__影夜_: x1 x2 x2(x3)是初始特征?
2015-2-11 13:25 回复
956549750: 权重怎么加的呢？
2015-6-9 19:28 回复
我也说一句
还有3条回复，点击查看

贴吧游戏

2亿红包大派送，快抢！疯狂过春节，红包抢不停~~~

推荐来自贴吧游戏

利_刃
知名人士

10

这个数学模型有什么意义呢？下面我对照前面那个 y=kx+b 直线拟合的例子来说明一下。

这时我们把激活函数改为 Purelin(45度直线)，Purelin就是y=x，代表保持原来的值不变。
这样输出值就成了 Y直线点 = b + X直线点*k，即y=kx+b。看到了吧，只是换了个马甲而已，还认的出来吗？下一步，对于每个点都进行这种运算，利用Y直线点和Y样本点计算误差，把误差累加起来，不断地更新b、k的值，由此不断地移动和旋转直线，直到误差变得很小时停住(收敛)。这个过程完全就是前面讲过的梯度下降的线性回归。

一般直线拟合的精确度要比曲线差很多，那么使用神经网络我们将如何使用曲线拟合？答案是使用非线性的激活函数即可，最常见的激活函数是 Sigmoid(S形曲线)，Sigmoid有时也称为逻辑回归(Logistic Regression)，简称 logsig。logsig曲线的公式如下：

还有一种S形曲线也很常见到，叫双曲正切函数(tanh)，或称 tansig，可以替代logsig。

下面是它们的函数图形，从图中可以看出logsig的数值范围是0~1，而tansig的数值范围是-1~1。

收起回复

6楼
2014-04-30 01:47

爺_傷風敗俗: 还是没看懂激活函数是干嘛的，，，，输出的y值不就是直接用y=kx+b算的么。。
2015-4-17 10:01 回复
_大财主: 虽然一点没看懂，但还是要给你个赞
2015-8-25 21:43 回复
yuchaozh1ang: 回复爺_傷風敗俗 :为了对加权平均的结果再做一次非线性变换
2015-8-26 10:23 回复
我也说一句

利_刃
知名人士

10

自然常数e

公式中的 e叫自然常数，也叫欧拉数， e=2.71828...。e是个很神秘的数字，它是“自然律”的精髓，其中暗藏着自然增长的奥秘，它的图形表达是旋涡形的螺线。

融入了e的螺旋线，在不断循环缩放的过程中，可以完全保持它原有的弯曲度不变，就像一个无底的黑洞，吸进再多的东西也可以保持原来的形状。这一点至关重要！它可以让我们的数据在经历了多重的Sigmoid变换后仍维持原先的比例关系。

e是怎么来的？e = 1 + 1/1! + 1/2! + 1/3! + 1/4! + 1/5! + 1/6! + 1/7! + ... = 1 + 1 + 1/2 + 1/6 + 1/24 + 1/120+ ... ≈ 2.71828 (!代表阶乘，3!=1*2*3=6)

再举个通俗点的例子：从前有个财主，他特别贪财，喜欢放债。放出去的债年利率为100%，也就是说借1块钱，一年后要还给他2块钱。有一天，他想了个坏主意，要一年算两次利息，上半年50%，下半年50%，这样上半年就有1块5了，下半年按1块5的50%来算，就有1.5/2=0.75元，加起来一年是：上半年1.5+下半年0.75=2.25元。用公式描述，就是(1+50%)(1+50%)=(1+1/2)^2=2.25元。可是他又想，如果按季度算，一年算4次，那岂不是更赚？那就是(1+1/4)^4=2.44141，果然更多了。他很高兴，于是又想，那干脆每天都算吧，这样一年下来就是(1+1/365)^365=2.71457。然后他还想每秒都算，结果他的管家把他拉住了，说要再算下去别人都会疯掉了。不过财主还是不死心，算了很多年终于算出来了，当x趋于无限大的时候，e=(1+1/x)^x≈ 2.71828，结果他成了数学家。

e在微积分领域非常重要，e^x的导数依然是e^x，自己的导数恰好是它自己，这种巧合在实数范围内绝无仅有。

一些不同的称呼：

e^x和e^-x的图形是对称的；ln(x)是e^x的逆函数，它们呈45度对称。

收起回复

8楼
2014-04-30 01:55

早起虫儿被谁吃: 好，赞一个
2014-9-20 22:06 回复
俊零__影夜_: - - 直接泰勒一下就好了..另外这个应该都懂的..
2015-2-11 13:32 回复
lewsn2008: 这一节有意思！
2015-2-11 16:12 回复
yonghenglh6: 用了这么多年e，从来没想过可以这样推导出来，楼主确实掉渣天。
2015-4-28 20:56 回复
jj521111443: 如果人类一开始用的是3进制，后来的圆周率，E,还是不是这个值呢？
2015-6-17 19:48 回复
我也说一句
还有3条回复，点击查看

利_刃
知名人士

10

神经网络

好了，前面花了不少篇幅来介绍激活函数中那个暗藏玄机的e，下面可以正式介绍神经元的网络形式了。
下图是几种比较常见的网络形式：

- 左边蓝色的圆圈叫“ 输入层”，中间橙色的不管有多少层都叫“ 隐藏层”，右边绿色的是“ 输出层”。
- 每个圆圈，都代表一个神经元，也叫节点(Node)。
- 输出层可以有多个节点，多节点输出常常用于分类问题。
- 理论证明，任何多层网络可以用三层网络近似地表示。
- 一般凭经验来确定隐藏层到底应该有多少个节点，在测试的过程中也可以不断调整节点数以取得最佳效果。

计算方法：

- 虽然图中未标识，但必须注意每一个箭头指向的连线上，都要有一个权重(缩放)值。
- 输入层的每个节点，都要与的隐藏层每个节点做点对点的计算，计算的方法是加权求和+激活，前面已经介绍过了。(图中的红色箭头指示出某个节点的运算关系)
- 利用隐藏层计算出的每个值，再用相同的方法，和输出层进行计算。
- 隐藏层用都是用Sigmoid作激活函数，而输出层用的是Purelin。这是因为Purelin可以保持之前任意范围的数值缩放，便于和样本值作比较，而Sigmoid的数值范围只能在0~1之间。
- 起初输入层的数值通过网络计算分别传播到隐藏层，再以相同的方式传播到输出层，最终的输出值和样本值作比较，计算出误差，这个过程叫前向传播(Forward Propagation)。

收起回复

9楼
2014-04-30 02:00

ll5851732: 楼主文章中："理论证明，任何多层网络可以用三层网络近似地表示"，这歌理论的出处或者相关文献能不能给个链接？
2016-1-26 15:46 回复
1093348929: 这个确实有证明，不过我也忘了在science上搜索一下吧
2016-2-5 22:25 回复
我也说一句

利_刃
知名人士

10

前面讲过，使用梯度下降的方法，要不断的修改k、b两个参数值，使最终的误差达到最小。神经网络可不只k、b两个参数，事实上，网络的每条连接线上都有一个权重参数，如何有效的修改这些参数，使误差最小化，成为一个很棘手的问题。从人工神经网络诞生的60年代，人们就一直在不断尝试各种方法来解决这个问题。直到80年代，误差反向传播算法(BP算法)的提出，才提供了真正有效的解决方案，使神经网络的研究绝处逢生。

BP算法是一种计算偏导数的有效方法，它的基本原理是：利用前向传播最后输出的结果来计算误差的偏导数，再用这个偏导数和前面的隐藏层进行加权求和，如此一层一层的向后传下去，直到输入层(不计算输入层)，最后利用每个节点求出的偏导数来更新权重。

为了便于理解，后面我一律用“ 残差(error term)”这个词来表示误差的偏导数。

输出层→隐藏层：残差 = -(输出值-样本值) * 激活函数的导数
隐藏层→隐藏层：残差 = (右层每个节点的残差加权求和)* 激活函数的导数

如果输出层用Purelin作激活函数，Purelin的导数是1，输出层→隐藏层：残差 = -(输出值-样本值)

如果用Sigmoid(logsig)作激活函数，那么：Sigmoid导数 = Sigmoid*(1-Sigmoid)
输出层→隐藏层：残差 = -(Sigmoid输出值-样本值) * Sigmoid*(1-Sigmoid) = -(输出值-样本值)*输出值*(1-输出值)
隐藏层→隐藏层：残差 = (右层每个节点的残差加权求和)* 当前节点的Sigmoid*(1-当前节点的Sigmoid)

如果用tansig作激活函数，那么：tansig导数 = 1 - tansig^2

残差全部计算好后，就可以更新权重了：
输入层：权重增加 = 当前节点的Sigmoid * 右层对应节点的残差 * 学习率
隐藏层：权重增加 = 输入值 * 右层对应节点的残差 * 学习率
偏移值的权重增加 = 右层对应节点的残差 * 学习率
学习率前面介绍过，学习率是一个预先设置好的参数，用于控制每次更新的幅度。

此后，对全部数据都反复进行这样的计算，直到输出的误差达到一个很小的值为止。
以上介绍的是目前最常见的神经网络类型，称为前馈神经网络(FeedForward Neural Network)，由于它一般是要向后传递误差的，所以也叫 BP神经网络(Back Propagation Neural Network)。

收起回复

10楼
2014-04-30 02:06

jttqhhy: 大神倒数第二段的输入层和隐藏层的权重更新公式是不是写反了呀
2014-6-18 13:57 回复
利_刃: 回复 jttqhhy :确实写反了，谢谢纠正
2014-6-20 02:03 回复
看这满天的星斗: 回复利_刃 :碉堡
2014-11-17 20:36 回复
心中那一抹绿光: 楼主为何这么牛b
2014-11-24 15:20 回复
俊零__影夜_: -(输出-输入) 直接写成输出-输出不好么..
2015-2-11 13:44 回复
我也说一句
还有2条回复，点击查看

利_刃
知名人士

10

BP神经网络的特点和局限：
- BP神经网络可以用作分类、聚类、预测等。需要有一定量的历史数据，通过历史数据的训练，网络可以学习到数据中隐含的知识。在你的问题中，首先要找到某些问题的一些特征，以及对应的评价数据，用这些数据来训练神经网络。
- BP神经网络主要是在实践的基础上逐步完善起来的系统，并不完全是建立在仿生学上的。从这个角度讲，实用性 > 生理相似性。
- BP神经网络中的某些算法，例如如何选择初始值、如何确定隐藏层的节点个数、使用何种激活函数等问题，并没有确凿的理论依据，只有一些根据实践经验总结出的有效方法或经验公式。
- BP神经网络虽然是一种非常有效的计算方法，但它也以计算超复杂、计算速度超慢、容易陷入局部最优解等多项弱点著称，因此人们提出了大量有效的改进方案，一些新的神经网络形式也层出不穷。

收起回复

11楼
2014-04-30 02:08

举报 |个人企业举报垃圾信息举报

俊零__影夜_: 那这公式到底是怎么推出来的..
2015-2-11 13:49 回复
老强是我: 所以说数学家和普通人是2种生物
2015-8-17 10:04 回复
我也说一句

利_刃
知名人士

10

文字的公式看上去有点绕，下面我发一个详细的计算过程图。
参考这个： http://www.myreaders.info/03_Back_Propagation_Network.pdf 我做了整理

收起回复

12楼
2014-04-30 17:36

举报 |个人企业举报垃圾信息举报

俊零__影夜_: 这误差有点大啊,还能收敛?
2015-2-11 13:51 回复
yonghenglh6: 回复俊零__影夜_ :哈哈哈哈哈哈，肿么感觉好萌啊
2015-4-28 21:10 回复
panhuashan2009: 确实萌萌哒，只有功力深厚才能把NN讲解的这么萌
2015-8-6 14:46 回复
风暴中一粒尘埃: 回复 yonghenglh6 :哪有哟
2015-8-21 21:14 回复
逍遥痞子风: 大神请收下臣妾的膝盖
2016-1-10 16:48 回复
我也说一句

利_刃
知名人士

10

这里介绍的是计算完一条记录，就马上更新权重，以后每计算完一条都即时更新权重。实际上批量更新的效果会更好，方法是在不更新权重的情况下，把记录集的每条记录都算过一遍，把要更新的增值全部累加起来求平均值，然后利用这个平均值来更新一次权重，然后利用更新后的权重进行下一轮的计算，这种方法叫批量梯度下降(Batch Gradient Descent)。

收起回复

13楼
2014-04-30 17:38

lj745280746: 你好，请问计算输出层、隐藏层残差的公式有什么含义？计算隐藏层残差2为什么要乘以-1？
2014-6-22 15:17 回复
remind_me163: 第8图，9图好像有误，-0.045应该是正的
2014-8-11 22:11 回复
remind_me163: 请问楼主，课程上输出层是直接减，没有再做乘法，是不是写错了？
2014-8-12 20:03 回复
68403345: 楼主，能不能帮我看看我写的一个c#源码
2015-2-6 20:34 回复
wzq2000_bd: 有人能解释一下为什么计算时没有偏置项呢？
2015-2-8 20:40 回复
我也说一句
还有5条回复，点击查看

利_刃
知名人士

10

推荐的入门级学习资源：

Andrew Ng的《机器学习》公开课: https://class.coursera.org/ml
Coursera公开课笔记中文版（神经网络的表示）: http://52opencourse.com/139/coursera公开课笔记-斯坦福大学机器学习第八课-神经网络的表示-neural-networks-representation
Coursera公开课视频（神经网络的学习）: http://52opencourse.com/289/coursera公开课视频-斯坦福大学机器学习第九课-神经网络的学习-neural-networks-learning
斯坦福深度学习中文版： http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程