机器学习note

最新推荐文章于 2024-01-18 15:56:35 发布

_BlogCommunicator

最新推荐文章于 2024-01-18 15:56:35 发布

阅读量337

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43994577/article/details/126565245

版权

本书主要讲连接主义的，这也是当下ai的主流方向
聚类(clustering)：无监督学习情况下让程序自动把样本分成几组，每组称为一个簇(cluster)
泛化(generalization)：学得模型适用于新样本的能力，称为“泛化”
版本空间：多个假设的集合
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”
人们发现，由人来把知识总结出来再教给计算机虽然取得了成就但是相当困难的，于是想出了机器学习
1980年，美国举行了第一届机器学习研讨会
机器学习有几个方向，其中归纳学习是目前的主要方向
与符号主义学习能产生明确的概念表示不同，连接主义(神经网络)学习产生的是“黑箱”模型
所谓深度学习，狭义地说就是“很多层”的神经网络，以往机器学习技术在应用中要取得好性能，
对使用者要求较高，而深度学习技术涉及的模型复杂度非常高，以至于只要下功夫“调参”，把参数调节好，
性能往往就好

第四章决策树
纯度：一个集合中，分类成同一结果的成员的比例越多，则纯度越高，和现实中的纯度概念类似

第五章神经网络
事实上，从计算机的角度看，我们可以先不考虑神经网络是否真的模拟了生物神经网络，
只需将一个神经网络视为包含了许多参数的数学模型，这个模型是若干函数相互嵌套代入而得，
有效的神经网络学习算法大多以数学证明为支撑。

感知机（perceptron）由两层神经元组成，两个输入一个输出
如果多层，那么输入和输出之间的叫隐层，输入层仅接受输入，隐层与输出层包含功能神经元
多层前馈神经网络：一般指每层神经元与下一层神经元全连，同层不连，跨层不连
神经网络的学习过程，就是根据训练数据来调整神经元之间的连接权重，以及每个功能神经元的阈值
误差逆传播算法（BP），大多数神经网络都用到它训练，“BP网络”一般指用BP算法训练的多层前馈神经网络，但是BP除了这种网络外还可以训练其他类型神经网络
BP算法基于梯度下降
基于梯度的搜索是使用最为广泛的参数寻优方法，先计算误差函数在当前点的梯度，然后根据梯度确定搜索方向
梯度方向是函数值下降最快的方向
如何跳出局部极小，可以使用
1.从多个点开始找或者
2.“模拟退火”在每一步都以一定的概率接受比当前解更差的结果，在每一步迭代中，接受次优解的概率逐渐降低，从而保证算法稳定.或者
3.随机梯度下降，即便陷入局部极小点，仍故意计算出一个不为零的梯度。或者
4.遗传算法中也有方法逼近全局最小

神经网络模型还有很多，常见的还有RBF(径向基函数)网络，
ART（自适应谐振理论）网络，它是竞争型学习的重要代表，ART比较好地缓解了竞争型学习中的“可塑性-稳定性窘境”，这使得它有一个很重要的优点：可以进行增量学习或在线学习
SOM（自组织映射）网络，它是一种竞争学习型的无监督神经网络
级联相关网络是结构自适应网络的重要代表，结构自适应网络将网络结构也当作学习的目标之一的网络
Elman网络(1990年)是最常用的递归神经网络之一，与前馈神经网络不同，递归神经网络允许网络中出现环状结构，这样使得网络在t时刻的状态不仅和t时刻的输入有关，
还和t-1时刻有关，从而能处理与时间有关的动态变化
Boltzmann机就是一种“基于能量的模型”，能量最小化时网络达到理想状态

典型的深度学习模型就是很深层的神经网络
有一种训练方法，无监督逐层训练，可以说是”预训练+微调“，这种方法可以节省训练开销
另一种节省训练开销的策略是”权共享“（weight sharing），这个策略在卷积神经网络（CNN）中发挥了重要作用
摘抄：
CNN可用BP算法训练，但在训练中，无论卷积层还是采样层，其每一组神经元（即图5.15中的每一个平面）都是用相同的连接权，从而大幅减少了需要训练的参数数目
无论是DBN(这个好像此书之前没讲)还是CNN都是对输入信号进行逐层加工，从而把初始的，与输出目标之间联系不太亲密的输入表示，
转化成与输出目标联系更紧密的表示，使得原来仅基于最后一层输出映射难以完成的任务称为可能，
换言之，通过多层处理，逐渐将初始的”底层“特征表示转化为”高层“特征表示后，用”简单模型“即可完成复杂的分类等学习任务。
由此可将深度学习理解为进行”特征学习“(feature learing)或”表示学习“(representation learning)
以往在机器学习用于现实任务时，描述样本的特征通常需由人类专家来设计，这称为”特征工程“(feature engineering)
众所周知，特征的好坏对泛化性能有至关重要的影响，人类专家设计出好特征并非易事；特征学习则通过机器学习技术自身来产生好特征，这使得机器学习向”全自动数据分析“又前进了一步。
本章完================

看到一个最近流行的算法yolov5，是深度学习的算法，应该可以用于游戏

第六章支持向量机（support vector machine 简称 SVM）
这是另一种机器学习方法，和神经网络应该是并列关系，它迄今仍是文本分类的首选技术，将每个单词作为文本数据的一个属性去计算
就是找到分割线或者平面，列出式子后可用SMO算法求解（应该是一种近似解）
我看有些机器学习方法和算法的命名和这个方法是干什么的几乎完全无关，而是使用这个机器学习方法中用到的某一具体计算用的算法的名称或其特性来给整个此机器学习方法命名，目前看来仿佛有病一样

核(kernel)函数是为了解决点空间(i call it this)不能线性可分的情况所引入的,把原来的点空间映射到更高纬去，就线性可分了
软间隔允许某些样本不满足约束yi(wTxi+b)>=1的约束条件
支持向量回归（Support Vector Regression 简称SVR）假设我们能容忍f(x)与y之间最多有“像e的符号”的偏差
本章这列寻找分割线或平面的问题的最优解往往可以表示为核函数k(x,xi)的线性组合,这显示出和函数在这一块的巨大威力，人们发展出一系列基于核函数的学习方法，统称为kernel methods即核方法

第七章贝叶斯分类器
贝叶斯决策论是概率框架下实施决策的基本方法。（我说：应该也是和神经网络并列关系，纯利用概率去反推各个属性对结果的影响）
7.2极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，
再基于训练样本对概率分布的参数进行估计...事实上，概率模型的训练过程就是参数估计过程
本节介绍源自频率主义学派的极大似然估计方法
（百度百科：设计贝叶斯分类器的关键是要知道样本特征 x的各种概率密度函数。条件概率密度函数为多元正态分布是研究得最多的分布。这是由于它的数学表达式易于分析，在实际应用中也是一种常见的分布形式。）
7.6EM算法（Expectation-Maximization）是常用的估计参数隐变量的利器，它是一种迭代式的方法
7.7阅读材料，为避免贝叶斯定理求解时面临的组合爆炸，样本稀疏问题，
朴素贝叶斯分类器引入了属性条件独立性假设，这个假设在现实应用中往往很难成立，
但朴素贝叶斯分类器在很多情况下都能获得相当好的性能
朴素贝叶斯分类器在信息检索领域尤为常用
贝叶斯分类器与一般意义上的贝叶斯学习有显著区别，前者是通过最大后验概率进行单点估计，
后者则是进行分布估计
贝叶斯网学习可分为结构学习和参数学习两部分，参数学习通常较为简单，而结构学习则被证明是NP难问题

第八章集成学习
用多个学习器来完成学习任务
用不同类型的学习器，例如同时包含决策树和神经网络，这样的集成叫异质的
集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能，
这对弱学习器尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的。

他说：如果基分类器的误差相独立，那么随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零，但是现实中往往没有那么好的独立性
如何生成并结合“好而不同”的个体学习器，恰是集成学习研究的核心
目前集成学习方法分为两大类，即个体学习器间存在强依赖关系，必须串行生成的序列化方法，以及个体学习器之间不存在强依赖关系，
可同时生成的并行化方法；前者的代表是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）
随机森林是Bagging的一个扩展变体，它简单，容易实现，计算开销小，令人惊奇的是，它在很多现实任务中展现出强大的性能，
被誉为“代表集成学习技术水平的方法“（它算是引入了一些随机性的Bagging方法）
8.4结合策略
例如对数值型的输出，最常见的结合策略是使用平均法
还有投票法等方法
8.4.3学习法
他的原话：当训练数据很多时，一种更为强大的结合策略是使用”学习法“，即通过另一个学习器来进行结合
Stacking（1996）是学习法的典型代表

他说：集成学习已被广泛用于几乎所有的学习任务
集成学习是黑箱模型

第九章聚类
聚类过程仅能自动形成簇结构，簇所对应的概念语义需由使用者来把握和命名
例如用户类型对商家来说不好定义，就可以先进行聚类，来找出用户类型
9.2性能度量
一类是将聚类结果与某个参考模型比价，称为外部指标
另一类不利用参考模型，称为内部指标
9.3距离计算
9.4原型聚类
基于原型的聚类，先有一些本来的分类，然后根据它们去分类
9.4.1 k均值算法
9.4.2 学习向量量化LVQ，与9.4.1的k均值算法类似，LVQ假设数据样本带有类别标记，学习过程利用样本的
这些监督信息来辅助聚类
以上这些算法都和神经网络无关，都是纯纯的计算距离啥的
9.4.3高斯混合聚类
和前两个算法不太一样，这个是用概率模型来表达聚类原型，和高斯分布相关
9.5密度聚类
基于密度的聚类
DBSCAN是一种著名的密度聚类算法
9.6层次聚类
它试图在不同层次对数据集进行划分，从而形成树形的聚类结构
AGNES是一种采用自底向上聚合策略的层次聚类算法
9.7阅读材料
相对于机器学习其他分支来说，聚类知识还不够系统化，总能从某个角度找到新算法，
例如一摊水果，既能按大小，也能按颜色，或产地等聚类
模式识别，图像检索等常会涉及非度量距离
k均值算法曾被不同领域的学者多次重新发明
可以对多个聚类学习器进行集成，称之为聚类集成

第10章降维与度量学习
10.1k近邻学习（knn）是一种常用的监督学习方法，给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本
然后基于这k个邻居的信息来进行预测
它的训练时间开销为零，待收到测试样本后再进行处理，它是“懒惰学习”的代表，反义词是“急切学习”
10.2
多维缩放MDS
再高维情况下出现数据样本稀疏，距离计算困难等问题，是所有机器学习方法共同面临的严重障碍，被称为“维数灾难”
解决办法之一就是降维，很多时候，人们观测到的数据是高维的，但与学习任务有关的也许仅仅为高维空间的一个低维分布
降维方法可以使用线性降维的方法
10.3 主成分分析PCA
它是一种常用的降维方法，
主成分分析将多个有一定相关性的指标进行线性组合，
以最少的维度解释原数据中尽可能多的信息为目标进行降维，
降维后的各变量间彼此线性无关，最终确定的新变量是原始变量的线性组合
主成分分析是一种统计方法。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，
转换后的这组变量叫主成分。
它在线代中叫做散度矩阵奇异值分解SVD
在统计学中叫做因子分析，在信号处理中叫做离散KL变换
图像分析中叫做Hotelling变换，文本分析中的潜在语义分析LSA
机械工程中的本征正交分解POD，气象学中的经验直交函数EOF
结构动力学中的经验模法分析EMA，心理测量学中的SM定理等
由卡尔皮尔逊于1901年发明，他统计学很厉害
10.4 核化线性降维
知乎：https://www.zhihu.com/question/24627666/answer/28440943
在机器学习中常用的核函数，一般有这么几类，也就是LibSVM中自带的这几类：
1) 线性：K(v1,v2)=<v1,v2>K(v_1,v_2)=<v_1,v_2>K(v_1,v_2)=<v_1,v_2>
2) 多项式：K(v1,v2)=(γ<v1,v2>+c)nK(v_1,v_2)=(\gamma<v_1,v_2>+c)^nK(v_1,v_2)=(\gamma<v_1,v_2>+c)^n
3) Radial basis function：K(v1,v2)=exp⁡(−γ||v1−v2||2)K(v_1,v_2)=\exp(-\gamma||v_1-v_2||^2)K(v_1,v_2)=\exp(-\gamma||v_1-v_2||^2)
4) Sigmoid：K(v1,v2)=tanh⁡(γ<v1,v2>+c)K(v_1,v_2)=\tanh(\gamma<v_1,v_2>+c)K(v_1,v_2)=\tanh(\gamma<v_1,v_2>+c)
我举的例子是多项式核函数中γ=1,c=0,n=2\gamma=1, c=0, n=2\gamma=1, c=0, n=2的情况。
在实用中，很多使用者都是盲目地试验各种核函数，并扫描其中的参数，选择效果最好的。至于什么样的核函数适用于什么样的问题，
大多数人都不懂。很不幸，我也属于这大多数人，所以如果有人对这个问题有理论性的理解，还请指教。
知乎over
10.5流形学习
它是借鉴了拓扑流形概念的降维方法
10.5.1 等度量映射
10.6 度量学习
每个维度空间对应了在样本属性上定义的一个距离度量...为何不直接尝试“学习”出一个合适的距离度量呢
10.7阅读材料

第11章特征选择与稀疏学习
11.1子集搜索与评价
特征就是属性
有用的属性称为相关特征，从给定的特征集合中选择出“相关特征”子集的过程，称为特征选择
特征选择和第10章的降维有相似的动机，它们是处理高维数据的两大主流技术
特征选择其实和决策树有点像
常见的特征选择方法有大概三类：过滤式，包裹式，嵌入式
11.2 过滤式选择
Relief是一种著名的过滤式特征选择方法。
11.3 包裹式选择
LVM las vegas wrapper
11.4 嵌入式选择与L1正则化
11.5稀疏表示与字典学习
在一般学习任务中没有《现代汉语常用字表》，我们需学习出一个”字典“，将样本转化为合适的稀疏表示形式
从而使学习任务简化，通常称为字典学习，也叫做稀疏编码，它两个意思差不多
11.6 压缩感知
接收方基于收到的信号，能否精确地重构出原信号呢，压缩感知为解决此类问题提供了新的思路
通过压缩感知技术恢复欠采样信号的前提条件之一式信号有稀疏表示
知乎：压缩感知在2008 - 2013期间大火，直逼如今的Deep Learning，本是一个信号处理领域的东西
11.7 阅读材料

第12章计算学习理论
其目的是分析学习任务的本质,例如:在什么条件下可进行有效的学习,
需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证。”
本章是抽象的理论
12.2 PAC学习
概率近似正确（PAC）学习理论
以较大概率学得误差满足预设上限的模型
12.3 有限假设空间
12.3.1 可分情形
12.3.2 不可分情形
12.4 VC维
假设空间H的VC维是能被H打散的最大示例集的大小
12.5 Rademacher复杂度
它是相对于VC维的另一种刻画假设空间复杂度的途径
12.6 稳定性
以上两种方法都与具体学习算法无关，对所有学习算法都适用
ERM（经验风险最小化）
定理12.9若学习算法L是ERM且稳定的，则假设空间H可学习
这个结论比较抽象
12.7 阅读材料
Valiant于1984年提出PAC学习，由此产生了计算学习理论，他被称作计算学习理论之父
VC维在1971年就已经提出了（VC来自Vapnik和Chervonenkis这两个作者的姓氏）
Rademacher复杂度最早于2000引入机器学习
机器学习稳定性研究始于2002，之后几年，ERM稳定性和ERM可学习性的等价关系被证明
小故事：
理论计算机科学通常指TCS Theoretical Computer Science,它可看作计算机与数学的交叉，例如P？=NP问题
计算学习理论是机器学习与TCS的交叉

第13章半监督学习
整个数据集中一部分都是监督的数据，剩下的全是没有监督的数据
机器自动地利用起完全没有监督的数据
让学习器不依赖外界交互，自动地利用未标记样本来提升学习性能，就是半监督学习
可以通过聚类假设实现
另一种常见地假设是“流形假设”，它和聚类有一定相似性
半监督学习可进一步分为纯半监督学习和直推学习
纯半监督学习是希望学得模型能适用于训练过程中未观察到的数据
直推学习仅试图对学习过程中观察到的未标记数据进行预测
13.2 生成式方法
此类方法假设所有数据都是由同一个潜在的模型生成的，模型预先蒙一个
13.3 半监督SVM （Semi-Supervised Support Vector Machine简称S3VM
是支持向量机在半监督学习上的推广
它试图找到能将两类有标记样本分开，且穿过数据低密度区域的划分超平面
此类方法中最著名的是TSVM
13.4 图半监督学习
把数据集映射成一个图，若两个样本之间的相似度很高，则对应的结点之间存在一条边
边的强度正比于样本之间的相速度，我们将有标记样本所对应的结点想象为染过色，
于是半监督学习就对应于颜色在图上扩散或传播的过程
由于一个图对应了一个矩阵，这使得我们能基于矩阵运算来进行算法的推导与分析
13.5 基于分歧的方法
使用多学习器，而学习器之间的分歧对未标记数据的利用至关重要
“协同训练”是此类方法的重要代表
一部电影有声音属性集，图像属性集，字幕属性集等，每一个属性集可以看作一个视图
协同训练正是很好地利用了多视图的相容互补性（比如图像分辨不出来是什么类型电影而声音可以）
可以先用一个视图去学习，把最有把握的未标记样本赋予伪标记，并将伪标记提供给另一个分类器来训练
相互学习，共同进步，直到两个分类器都不再变化或达到迭代轮数为止
协同学习也有在单视图上的变体算法，例如在单视图上用不同的学习器
基于分歧的方法将集成学习与半监督学习联系了起来
13.6 半监督聚类
聚类本是无监督学习，然而加入一些额外的监督信息，可以更好地聚类
监督信息通常有两种“必连”和“勿连” 或者少量有标记样本
约束k均值算法是利用前者监督信息的算法
13.7 阅读材料
半监督学习的研究一般认为始于1994 Shahshahani and Landgrebe
小故事：
“流形”是德国数学家黎曼于19世纪提出的

第14章概率图模型(这章草草过的)
14.1隐马尔可夫模型HMM
概率模型将学习任务归结于计算变量的概率分布，基于已知变量推测未知变量
的条件分布
概率图模型用一个结点表示一个或一组随机变量，结点之间的边
表示变量间的概率相关关系
概率图模型分为两类，一类是有向无环图称为有向图或者贝叶斯网
另一类是无向图称为无向图模型或马尔科夫网
隐马尔可夫模型是结构最简单的动态贝叶斯网
14.2 马尔可夫随机场MRF
它是典型的马尔可夫网
势函数是人为定义的，一般用指数函数
14.3 条件随机场 CRF
是一种判别式无向图模型
生成式模型是直接对联合分布建模，前面的马尔可夫模型
和马尔可夫随机场都是生成式模型
判别式模型是对条件分布进行建模，CRF即是判别式模型
14.4 学习与推断
边际分布是指对无关变量求和或积分后得到结果
边际化
14.4.1 变量消去
14.4.2 信念传播
解决了求解多个边际分布时的重复问题
14.5 近似推断
近似推断方法大致可分为两类：第一类是采样，通过使用随机化方法完成近似
第二类是使用确定性近似完成近似推断，典型代表未变分推断
14.5.1 MCMC采样
MCMC是马尔可夫链与蒙特卡罗（那个赌场）方法的结合
MH算法是MCMC的重要代表
吉布斯采样有时被视为MH算法的特例，它也使用马尔可夫链获取样本
14.5.2 变分推断
它通过使用已知简单分布来逼近需推断的复杂分布
平均场方法
14.6 话题模型
它是一族生成式有向图模型，主要用于处理文本等，例如根据一段文本求其话题
LDA是话题模型的典型代表
小故事
概率图模型的奠基人是朱迪亚珀尔(Judea Pearl)

第15章规则学习
若...则...
与神经网络，支持向量机这样的“黑箱模型”想比，规则学习具有更好的可解释性
15.2 序贯覆盖（sequential covering）
序贯覆盖即逐条归纳
它简单有效，所以几乎所有规则学习算法都以它为基本框架
15.3 剪枝优化
15.4一阶规则学习
色泽更深，这样的和其他比较的关系数据，无法用命题逻辑表示，而要用一阶规则才能表示
FOIL是著名的一阶规则学习算法
15.5 归纳逻辑程序设计(Inductive Logic Programming ILP)
它在一阶规则学习中引入了函数和逻辑表达式嵌套
15.5.1 最小一般泛化(Least General Generalization LGG)
15.5.2 逆归结
逆归结的一大特点是能自动发明新谓词，但新发明的谓词是字母啥的，其意思需要使用者去明确
15.6 阅读材料
AQ是Algorithm Quasioptimal的缩写
规则学习是“符号主义学习”的主要代表
将关系学习与统计学习相结合是机器学习发展的一大趋势，
而概率归纳逻辑程序设计是其中的重要代表...还有其他的代表等，被称为“统计关系学习”

第16章强化学习
从浇水与奖赏说起
百度：多智能体强化学习（multi-agent reinforcement learning, MARL）应用在OpenAI的游戏ai上，这就是电脑自学打游戏的技术！
OpenAI发现智能体能够自主地学习掌握到一些复杂的技能
百度over
强化学习和监督学习有相似的地方也有不同的地方，(他觉得相似多，我觉得不同多虽然本质上差不多）
16.1 任务与奖赏
强化学习任务通常用马尔可夫决策过程MDP来描述
16.2 K-摇臂赌博机
16.2.1 探索与利用
考虑一种特例，最大化单步奖赏，即仅考虑一步操作（他的原话：即便在这样的简化情形下，强化学习仍与监督学习有显著不同）
16.2.2 e-贪心
如果学习探索和利用实践的机会加起来是有限的话，那么就没法做太多的探索使得利用次数太少了
e-贪心法对探索和利用进行折中
16.2.3 Softmax
也是一个折中的算法
16.3 有模型学习
E=<X,A,P,R>里的各元素均为已知
16.3.1 策略评估
16.3.2 策略改进
最优Bellman等式，其唯一解是最优值函数
16.3.3 策略迭代与值迭代
在模型已知时强化学习任务能归结为基于动态规划的寻优问题，
与监督学习不同，这里并未涉及到泛化能力，而是为每一个状态找到最好的动作
16.4 免模型学习
16.4.1 蒙特卡罗强化学习
受K摇臂赌博机的启发，一种直接的策略评估替代方法是多次“采样”，
然后求取平均累积奖赏来作为期望积累奖赏的近似，这称为蒙特卡罗强化学习
16.4.2 时序差分学习
Sarsa算法（state,action,reward,state,action）
将Sarsa修改为异策略算法，则得到Q-学习算法
16.5 值函数近似
16.6 模仿学习
从范例中学习，称为模仿学习
16.6.1 直接模仿学习
16.6.2 逆强化学习
从人类专家提供的范例数据中反推出奖赏函数有助于解决设计奖赏函数难的问题，这就是逆强化学习
16.7 阅读材料
TD是时序差分
在运动学与控制论领域，强化学习方面的研究被称为近似动态规划
小故事：
马尔可夫(1856-1922)是著名俄罗斯数学家，
他开创了随机过程领域，小到分子运动，大到流行病，都能用到马尔可夫过程
他儿子也叫马尔可夫，也有以他儿子命名的理论
他弟弟也叫马尔可夫，也有以他弟弟命名的理论
本章完=============================