目录
比较检验:统计假设检验hypothesis test:以错误率为性能度量
全局最小global minimum和局部极小local minimum
第1章:绪论
学习算法learning algorithm:假设用P来评估计算机程序在某任务类T上的性能, 若一个程序通过利用经验E 在T中任务上获得了性能改善,則我们就说关于T和P,该程序对E进行了学习
模型:指全局性结果,是算法产出的结果,例如一棵决策树
模式:指局部性结果,例如一条规则
数据集data set
示例instance=样本sample=特征向量feature vector:数据集中的每条记录
属性attribute=特征feature
属性值attribute value
属性空间attribute space=样本空间sample space=输入空间X
样本的维数dimensionality d:每个示例由d个属性描述
学习learning=训练training:从数据中学得模型的过程
训练数据training data:训练过程中使用的数据
训练样本training sample=训练示例training instance=训练例:训练中用的每个样本
训练集training set:训练样本组成的集合
测试testing:学得模型后,使用其进行预测的过程
测试样本testing sample=測试示例testing instance=测试例:被预测的样本
标记label:关于示例结果的信息,例如好瓜
样例example:拥有了标记信息的示例
标记空间label space=输出空间Y:所有标记的集合
新样本=未见示例unseen instance
泛化generalization:学得模型适用于新样本
假设hypothesis:学得模型对应的关于数据的某种潜在的规律
真相=真实ground-truth:这种潜在规律自身
学习器learner=模型:即学习算法在给定数据和参数空间上的实例化
预测prediction
分类classification:欲预测的是离散值的一类学习任务,例如好瓜or坏瓜
回归regression:欲预测的是连续值
二分类binary classification:只涉2个类别:正类positive class和负/反类negative class
多分类multi-class classification:可以分解为若干个二分类问题
聚类clustering:即将训练集中的西瓜分成若干组
簇cluster:每一个组
监督学习supervised learning=有导师学习:训练数据拥有标记信息,如分类、回归
无监督学习unsupervised learning=无导师学习:训练数据没有标记信息,如聚类
通常假设样本空间中全体样本服从一个未知分布distribution D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布independent and identically distributed=i.i.d.
归纳induction:前者是从特殊到一般的泛化generalization过程
演绎deduction:从一般到特殊的特化specialization过程
归纳学习inductive learning
广义的归纳学习=从样例中学习
狭义的归纳学习=概念学习=概念形成:要求从训练数据中学得概念concept
机械学习=死记硬背式学习:记住训练样本
难点:
假设空间:假设房价与学校数量成正比,则房价预测问题的假设空间为一元一次函数
版本空间:与训练集一致的假设集合,即能够拟合训练集的模型构成的集合
析合范式=多个合取式的析取
归纳偏好inductive bias=偏好:如选择尽可能特殊,或选择尽可能一般的模型
属性选择=特征选择feature selection:在归纳偏好中对哪种属性更重视
奥卡姆剃刀Occarn's Tazor:若有多个假设与观察一致,则选最简单的那个
公式1.1-1.3:没有免费的午餐定理No Free Lunch Theorem=NFL:
所以,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考患所有潜在的问题,则所有学习算法都一样好
WEKA机器学习算法程序库:https://www.cs.waikato.ac.nz/ml/weka/
国内机器学习重要会议:中国机器学习大会CCML、机器学习及其应用研讨
会MLA
萨缪尔跳棋程序:早期计算机科学研究认为,计算机不可能完成事先没有显式编程好的任务,而萨缪尔跳棋程序香证了这个假设
1.5发展历程、1.6应用现状:略
第2章:模型评估与选择
错误率error rate:分类错误的样本数占样本总数的比例
精度accuracy=1-错误率
误差error:学习器的实际预测输出与样本的真实输出之间的差异
训练误差training error=经验误差:学习器在训练集上的误差
泛化误差generalization error:在新样本上的误差
过拟合=过配:学习器把训练样本学得“太好”了的时候,很可能己经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。只要相信P不等于NP,过拟合就不可避免
欠拟合=欠配
模型选择model selection:考虑选用哪一个学习算法、使用哪一种参数配置
测试误差testing error:作为泛化误差的近似
验证集validation set:我们通常把学得模型在实际使用中遇到的数据称为测试数据,为了加以区分,模型评估与选择中用于评估测试的数据集常称为验证集
分层采样stratified sampling:保留类别比例的采样方式,为了保持数据分布的一致性
评估方法
留出法hold-out:
数据集D=训练集S∩测试集T,即将D划分为两个互斥的集合
在S上训练出模型后,用T水评估其测试误差
交叉验证法cross validation=k折交叉验证k-fold cross validation=k倍交叉验证:
将数据集D划分为k个大小相似的互斥子集
每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集
最终返回的是这k个测试结果的均值
p次k折交叉验证:
与留出法相似,将数据集D划分为k个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值
留一法Leave-One-Out=LOO:k=D中的样本个数,⊆k折交叉验证
自助法bootstrapping:
以自助采样法为基础,给定包含m个样本的数据集D,每次随机从D中挑选一个样本,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到。这个过程重复执行m次后,初始数据集D中约有36.8%的样本未出现在采样数据集中,这部分样本用作测试集
自助采样法boots trap sampling=可重复采样=有放回采样
包外估计out-of-bag estimate:自助法的测试结果
参数调节=调参parameter tuning:在进行模型评估与选择时,除了要对适用学习算法进行选择,还需对算法参数进行设定。
在模型选择完成后,学习算法和参数配置己选定,此时应该用数据集D重新训练模型.这个模型在训练过程中使用了所有m个样本,这才是我们最终提交给用户的模型
两类参数(两者调参方式类似):
超参数:即算法的参数,一般在10个以内
模型的参数:如深度学习模型有上百亿个参数
性能度量performance measure
均方误差mean squared error(其中,学习器f、样例集D):
分类错误率:
精度:
真正例true positive=TP:
假正例false positive=FP:预测错误了F、预测结果是正例P
真反例true negative=TN:
假反例false negative=FN:预测错误了F、预测结果是反例N
查准率precision=准确率P:=TP/(TP+FP)
查全率recall=召回率R:=TP/(TP+FN)
分类結果的混淆矩降confusion matrix:即把TP、FP、TN、FN用2×2表格来表示
查准率-查全率曲线=P-R曲线:
根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可算出当前的查全率、查淮率。以查准率为纵轴、查全率为横轴作图即可得。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低
平衡点Break-Event Point,简称BEP:查准率=查全率时的取值
F1度量:=2PR/(P+R),是基于调和平均定义
F_β度量:=(1+β^2)PR/(P×β^2+R),能让我们表达出对套谁率/查全率的不同偏好
调和平均harmonic mean:与算术平和几何平均相比,调和平均更重视较小值
进行多次训练/测试后,得到很多个P_i、R_i:
宏查准率macro-P:=P_i的均值
宏查全率macro-R:=R_i的均值
宏F1=macro-F1:=macro-P和macro-R的调和平均
微查准率micro-P:=TP均值/(TP均值+FP均值)
微査全率micro-R:=TP均值/(TP均值+FN均值)
微F1=micro-F1:=micro-P和micro-R的调和平均
分类阈值threshold=截断点cut point:若大于阈值则分为正类,否则为反类
受试者工作特征Receiver Operating Characteristic曲线=ROC:
将分类阈值依次设为每个样例的预测值,即依次将每个样例划分为正例
真正例率True Positive Rate=TPR:=TP/(TP+FN),是ROC的纵轴
假正例率Palse Positive Rate=FPR:=FP/(TN+FP),是ROC的横轴
假反例率FNR:=1-TPR
AUC=Area Under ROC Curve:
即ROC曲线下的面积,考虑的是样本预测的排序质量,故与排序误差有紧密联系
排序损失loss:对应的是BOC曲线之上的面积
=1-AUC
非均等代价unequal cost:权衡不同类型错误所造成的不同损失
代价矩阵cost matrix:其元素表示表示将第i类样本预测为第j类样本的代价
总体代价total cost:希望最小化总体代价
代价敏感cost-sensitive错误率(即加权错误率):
代价曲线cost curve:
横轴是取值为[0,1]的正例概率代价:
纵轴是取值为[0,1]的归一化代价:
代价的类型:误分类代价、测试代价、标记代价、属性代价等;
误分类代价分为:基于类别的误分类代价(即本节讨论的)、基于样本的误分类代价
代价敏感学习cost-sensitive learning:专门研究非均等代价下的学习
規范化normalization:将不同变化范围的值映射到相同的固定范围中
归一化:将不同变化范围的值映射到[0,1],⊆規范化
比较检验:统计假设检验hypothesis test:以错误率为性能度量
泛化错误率e:假设检验中的“假设是对学习器泛化错误率分布的某种判断或猜想
测试错误率:
假定测试样本是从样本总体分布中独立采样而得,则e被测成的概率:
,即
二项检验binomial test:可用来对e<=0.3这样的假设进行检验
t检验t-test=学生氏t检验:常考虑双边two-tailed假设,即双边t检验
由中心极限定理,m→∞时,服从正态分布,所以可以用t检验
k折交叉验证成对t检验paired t-tests:不满足测试错误率均为泛化错误率的独立采样
5×2交叉验证:为缓解k折交叉验证成对t检验中,测试错误率实际并不独立的问题
McNemar检验:利用卡方分布。另外,此检验在本书中的解释有误,需参考原文献
列联表contingency table
交叉验证t检验和McNemar检验都是用于在一个数据集上比较两个算法的性能
Friedman检验:基于算法排序,用于在一组数据集上对多个算法进行比较
后续检验post-hoc test:所有算法的性能相同这个假设被拒绝时,用来进一步区分各算法,如Nemenyi后续检验
偏差与方差
偏差-方差分解bias-variance decomposition:对学习算法的期望泛化错误率进行拆解
期望泛化误差=偏差+方差+噪声
方差:指使用样本数相同的不同训练集产生的预测输出的方差:
偏差bias:期望输出与真实标记的差别:
噪声:
偏差-方差窘境bias-variance dilemma:
在训练不足时:学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;
训练程度充足:学习器的拟合能力非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,方差主导了泛化错误率。若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合
如留出法中,当数据集D大小固定时:
测试集小时,评估结果的方差较大;
训练集小时,评估结果的偏差较大,从而降低了评估结果的保真性fidelity
第3章:线性模型
线性回归linear regression
线性模型linear mode
非线性模型nonlinear model:可在线性模型基础上通过引入层级结构或高维映射而得
可解释性comprehensibility=可理解性understandability:因为x_i的系数w_i直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性
序order:对离散属性,若属性值问存在序关系,可通过连续化将其转化为连续值,如将高矮转化为{1.0,0.0}
最小二乘法least square method:基于均方误差(对应了欧氏距离Euclidean distance)最小化来进行模型求解
线性回归模型的最小二乘参数估计parameter estimation:为得到w和b最优解的闭式closed-form解
多变量线性回归=多元线性回归multi variate linear regression:
当X’X为满秩矩阵full-rank matrix或正定矩阵positive definite matrix时,
当变量数目超过样例数,即X的列数多于行数时,X’X不满秩,此时可解出多个w,它们都能使均方误差最小化,此时常见的做法足引入正则化regularization项
广义线性模型generalized linear model
联系函数link function:g(·),需为单调可微函数,即连续且充分光滑
对数线性回归log-linear regression:需最大化对数似然log-likelihood
广义线性模型的参数估计常通过加权最小二乘法或极大似然法maximum likelihood method进行
对数几率回归
单位阶跃函数unit-step function=Heaviside函数:用于将实值转换为0/1值
对数几率函数logistic function=对率函数:y=1/(1+e^-z),即单位阶跃函数的替代函数surrogate function;是任意阶可导的凸函数,故可用许多数值优化算法来求最优解
Sigmoid函数:即形似S的函数,如对率函数
几率odds=y/(1-y):即当将y视为样本工作为正例的可能性时,x作为正例的相对可能性,此时1-y是其反例可能性
对数几率log odds=logit:=ln[y/(1-y)],即对几率取对数
对数几率回归logistic regression=对率回归=逻辑回归logit regression:
直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题;它不是仅预测出类别,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用
凸优化理论(包括多种数值优化算法):
梯度下降法gradient descent method
牛顿法Newton method
线性判别分析
线性判别分析Linear Discriminant Analysis=LDA:
设法将训练样例集中的样例投影到一条直线上,使同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同一条直线上,再根据投影点的位置米确定新样本的类别。LDA常被视为一种经典的监督降维技术
Fisher判别分析与LDA的唯一差别:LDA假设了各类样本的协方差矩阵相同且满秩
类内散度矩阵within-class scatter matrix=S_w
类间散度矩阵between-class scatter matrix=S_b
全局散度矩阵S_t=S_w+S_b
广义瑞利商generalized Rayleigh quotient
多分类学习
分类学习器=分类器classifier
拆解法:将多分类任务拆为若千个二分类任务求解
最经典的拆分策略有三种:
一对一One vs. One=OvO:将这N个类别两两配对,从而产生N(N-1)/2个二分类任务。需训练N(N-1)/2个分类器
一对其余One vs. Rest=OvR=OvA=One vs. All:每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。只需训练N个分类器
多对多Many vs. Many=MvM:每次将若干个类作为正类,若千个其他类作为反类
纠错输出码Error Correcting Output Codes=ECOC:是最常用的MVM技术:
第一步:编码:对N个类别做M次划分,类别划分通过编码短阵coding matrix指定
第二步:解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码
类别不平衡问题
类别不平衡class-imbalance:分类任务中不同类别的训练样例数目差别很大的情况
再缩放rescaling=再平衡rebalance:是类别不平衡学习的一个基本策略,也是代价敏感学习cost-sensitive learning的基础
欠采样undersampling=下采样downsampling:去除一些反例使得正、反例数目接近,如EasyEnsemble算法
过采样oversampling=上采样upsampling:增加一些正例使得正、反例数目接近,如SMOTE算法
阈值移动threshold-moving:直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,对其预测值进行调整
稀疏表示sparse representation
稀疏性sparsity
多标记学习multi-label learning:为一个样本同时预测出多个类别标记,如一幅图像可同时标注为蓝天、白云、羊群、自然场景
第4章 决策树
划分选择
决策树decision tree=判定树:叶结点对应决策结果,其他每个结点对应一个属性测试,根结点包含样本全集
分而治之divide-and-conquer:是决策树学习基本流程,关键是如何选择最优划分属性
纯度purity:随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别
信息熵information entropy=Ent(D):对可取值数目(即V)较多的属性有所偏好
样本集合D中第k类样本所占的比例为p_k
信息增益information gain=Gain(D,a):对可取值数目较少的属性有所偏好
属性a有V个可能的取值,并使用a来对样本集D进行划分,产生V个分支结点
增益率gain ratio=Gain_ratio(D,a):=Gain(D,a)/IV(a)
固有值intrinsic value=IV(a):a的可能取值数目越多,则IV(a)的值通常越大
基尼值=Gini(D):≈从D中随机抽取两个样本,其类别标记不一致的概率
基尼指数Gini index=Gini index(D,a):
ID3(Iteractive Dichotomiser)算法:
用信息增益来进行决策树的划分属性选择。信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大
C4.5算法:
为减少信息增益准则对可取值数目较多的属性有所偏好等带来的不利影响,该算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的
CART=Classification and Regression Tree算法:
选择使得划分后基尼指数最小的属性作为最优划分属性
剪枝处理
剪枝pruning:是决策树学习算法对付过拟合(决策树分支过多)的主要手段
预剪枝prepruning:
在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点
后剪枝postpruning:
先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点
决策树桩decision Stump:仅有一层划分的决策树
连续与缺失值
二分法bi-partition:属于连续属性离散化技术,被用于C4.5决策树算法
与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性
多变量决策树
轴平行axis-parallel:把每个属性视为坐标空间中的一个坐标轴,则d个属性描述的样本就对应了d维空间中的一个数据点,对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界。决策树所形成的分类边界有一个明显的特点:轴平行,即它的分类边界由若干个与坐标轴平行的分段组成
单变量决策树univariate decision tree:我们之前学习的决策树
多变量决策树multivariate decision tree=斜决策树oblique decision tree:
非叶结点不再是仅对某个属性,而是属性的线性组合;用于实现斜的划分边界
感知机树Perceptron tree:在决策树的每个叶结点上训练一个感知机,即结合决策树和神经网络这两种学习机制的优势
增量学习incremental learning:在接收到新样本后可对已学得的模型进行调整,而不用完全重新学习.主要机制是通过调整分支路径上的划分属性次序来对树进行部分重构,代表性算法有ID4、ID5R、ITI
第5章:神经网络neural networks
神经元模型
神经网络:根据训练数据来调整神经元之间的连接权connection weight以及每个功能神经元的阈值
神经元neuron=unit:神经网络中最基本的成分,有M-P神经元模型、脉冲神经元spiking neuron模型
连接connection:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递
阈值threshold=bias:如果某神经元的电位超过了一个阈值,那它就会被激活,即兴奋起来,向其他神经元发送化学物质
激活函数activation function=响应函数:神经元接收到的总输入值将与神经元的阙值进行比较,然后通过激活函数处理以产生神经元的输出
感知机与多层网络
感知机Perceptron:由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称阙值逻辑单元threshold logic unit。感知机能容易地实现逻辑与、或、非运算.
哑结点dummy node
学习率learning rate
功能神经元functional neuron
线性可分linearly separable:如与、或、非问题都是线性可分的问题
收敛converge:可求得适当的权向量w
振荡fluctuation:w难以稳定下来,不能求得合适解
多层功能神经元:用于解决非线性可分问题
隐层或隐含层hidden layer:输出层与输入层之间的一层神经元
多层前馈神经网络multi-laver feedforward neural networks:网络拓扑结构上不存在环或回路
单隐层网络
多层网络
误差逆传播算法
误差逆传播error BackPropagation=BP算法=反向传播算法=广义δ规则:实质是LMS Least Mean Square算法的推广,是迄今最成功的神经网络学习算法,基于梯度下降gradient descent策略,以目标的负梯度方向对参数进行调整;对一个拥有d个输入神经元、l个输出神经元、q个隐层神经元的单隐层网络来说,网络中有(d+l+1)q+l个参数需确定
累积误差逆传播accumulated error backpropagation算法:标准BP算法和累积Bp算法的区别类似于随机梯度下降SGD stochastic gradient descent与标准梯度下降之间的区别
一轮one round=one epoch学习:读取训练集一遍
试错法trial-by-error:可用于设置隐层神经元的个数
缓解BP网络的过拟合:
早停early stopping:将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和國值,验证集用来佔计误差,若训练集误差降低但证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阙值
正则化regularization:在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权与网值的平方和
全局最小global minimum和局部极小local minimum
模拟退火simulated annealing技术:在每一步都以一定的概率接受比当前解更差的结果,从而有助于跳出局部极小,在每步迭代过程中,接受次优解的概率要随着时间的推移而逐渐降低,从而保证算法稳定
遗传算法genetic algorithms:常用来训练神经网络以更好地逼近全局最小,属于演化计算evolutionary computation技术
其他常见神经网络
RBF:
Radial Basis Function=径向基函数网络:是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合
ART:
竞争型学习competitive learning=胜者通吃winner-take-all原则:是神经网络中一种常用的无监督学习策略,在使用该策略时,网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被激活,其他神经元的状态被抑制
Adaptive Resonance Theory=自适应谐振理论网络:是竞争型学习的重要代表。该网络由比较层、识别层、识别阈值和重置模块构成。其中,比较层负责接收输入样本,并将其传递给识别层神经元;识别层每个神经元对应一个模式类,神经元数目可在训练过程中动态增长以增加新的模式类
可塑性:是指神经网络要有学习新知识的能力
稳定性:指神经网络在学习新知识时要保持对旧知识的记忆
可塑性-稳定性窘境stability-plasticity dilemma:ARI比较好地缓解了竞争型学习中的可塑性-稳定性窘境,所以ART网络可进行增量学习incremental learning(可视为批模式batch-mode的在线学习)或在线学习online learning
SOM:
Self-Organizing Map自组织映射网络区=自组织特征映射Self-Organizing Feature Map=Kohonen网路:是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空同的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元
最佳匹配单元best matching unit:在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量之问的距离,竞争获胜者为距离最近的神经元
级联相关Cascade Correlation网络:
结构自适应神经网络=构造性constructive神经网络:如级联相关网络、ART网络
Elman:
递归神经网络recurrent neural network=recursive neural networks:如Elman网络
Boltzmann机:
其神经元分为两层:显层与隐层,显层用于表示数据的输入与输出,隐层则被理解为数据的内在表达;是一种基于能量的模型energy-based model,是一种递归神经网络
Boltzmann分布=平衡态equilibrium=平稳分布stationary distribution
受限Boltzmann机=Restricted Boltzmann Machine=RBM:仅保留显层与隐层之问的连接,从而将Boltzmann机结构由完全图简化为二部图
对比散度Contrastive Divergence=CD算法:RBM常用的算法
深度学习
深度学习deep learning=特征学习feature learning=表示学习representation learning:典型的深度学习模型就是很深层的神经网络;理论上来说,参数越多的模型复杂度越高、容量capacity越大,这意味着它能完成更复杂的学习任务
特征工程feature engineering:在机器学习用于现实任务时,描述样本的特征通常需由人类专家来设计
发散diverge:误差在多隐层内逆传播时,往往会发散而不能收敛到稳定状态,所以多隐层神经网络难以直接用标准BP算法等经典算法进行训练
无监督逐层训练unsupervised layer-wise training是多隐层网络训练的有效手段,其基本思想是每次训练一层隐结点,训练时将上一层隐结点的输出作为输入,而本层隐结点的输出作为下一层隐结点的输入,即预训练pre-training;在预训练全部完成后,再对整个网络进行微调finetuning训练。如在深度信念网络deep belief network(DBN)中,每层都是一个受限Boltzmann机,即整个网络可视为若干个RBM堆叠而得
权共享weight sharing:即让一组神经元使用相同的连接权,也是一种节省训练开销的策略,用于卷积神经网络Convolutional Neural Network(CNN)
特征映射feature map:CNN复合多个卷积层和采样层对输入信号进行加工,然后在连接层实现与输出目标之间的映射,每个卷积层都包含多个特征映射
采样层=汇合pooling层:其作用是基于局部相关性原理进行亚采样,从而在减少数据量的同时保留有用信息
ReLU=Rectified Linear Unit:用于CNN中