《西瓜书》笔记整理——第一章

Willis Wong

已于 2022-11-21 13:35:27 修改

阅读量710

点赞数 1

文章标签：人工智能

于 2022-11-21 13:18:09 首次发布

本文链接：https://blog.csdn.net/weixin_45599773/article/details/127959342

版权

第一章绪论

1.1 引言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
1.5 发展历程
- 附：Evolution of ML
1.6 应用现状
1.7 阅读材料

1.1 引言

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
机器学习研究的主要内容是关于计算机上从数据中产生“模型（model）”的算法，即学习算法（learning algorithm） 。

1.2 基本术语

数据集（data set）：数据的集合。
示例（instance）/ 样本（sample）：关于一个事件或对象的描述。
属性（attribute）/ 特征（feature）：反映事件或对象在某方面的表现或性质的事项。
属性值（attribute value）：属性上的取值。
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间（input space）：属性张成的空间。
特征向量（feature vector）：空间中的点所对应的坐标向量，这里的点可以是一个示例。

从数据中学得模型的过程称为学习（learning）或训练（training）。
训练过程中使用的数据称为训练数据（training data），其中每个样本称为一个训练样本（training sample），训练样本组成的集合称为训练集（training set）。
学得模型对应了关于数据的某种潜在规律，因此亦称为假设（hypothesis）。
潜在规律自身称为真相或者事实 （ground-truth）。
学习过程就是为了找出或逼近真相。
模型可亦称为学习器（learner），可看作学习算法在给定数据和参数空间上的实例化。
学习算法通常有参数需设置，使用不同的参数值和（或）训练数据，将产生不同的结果。

预测（prediction）
标记/标签（label）：关于示例结果的信息。
样例（example）：拥有标记信息的示例。
标记空间（label space）/ 输出空间（output space）：所有标记的集合。

学习任务的类别有两种：

分类（classification）：预测的是离散值。
回归（regression）：预测的是连续值。

只涉及两个类别的分类称为二分类（binary classification），通常称一个类为正类（positive class），另一个类为反类/负类（negative class）。涉及多个类别的分类任务，称为多分类（multi-class classification）。

学得模型后，使用其进行预测的过程，称为测试（testing），被预测的样本称为测试样本（testing sample）。

聚类（clustering）：将训练集的样本分成若干组。
簇（cluster）：分组后的单个组。

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：监督学习（supervised learning)和无监督学习（unsupervised learning），分类和回归任务是前者的代表，而聚类是后者的代表。【亦称为有导师学习和无导师学习】

机器学习的目标是使学得的模型能很好地适用于“新样本”。
学得模型适用于新样本的能力，称为泛化（generalization） 能力。具有强泛化能力的模型能很好地适用于整个样本空间。

独立同分布（independent and identically distributed，简称 $i . i . d .$ ):获得的每个样本都是独立地从一个未知分布（distribution） $D$ 上采样获得的。

1.3 假设空间

归纳（induction） 与 演绎（deduction） 是科学推理的两大基本手段。
归纳是从特殊到一般的泛化过程，演绎则是从一般到特殊的 特化（specialization） 过程。
归纳学习（inductive learning）：指归纳的过程。

归纳学习有广义和狭义之分。广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念（concept），因此亦称为概念学习或概念形成。
概念学习中最基本的是布尔概念学习，即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

“记住”训练样本，就是所谓的“机械学习”，或称“死记硬背式学习”。

多个假设与训练集一致，即存在着一个与训练集一致的假设集合，称为版本空间（version space）。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好（inductive bias），简称为偏好。

尽可能特殊 $\Rightarrow$ 适用情形尽可能少
尽可能一般 $\Rightarrow$ 适用情形尽可能多

奥卡姆剃刀（Occam‘s razor） 是常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单那个”。

没有免费的午餐（No Free Lunch Theorem，简称 $N F L$ 定理）：无论学习算法 $L_a$ 多聪明，学习算法 $L_b$ 多笨拙，它们的期望性能相同。如果某种学习算法在某些方面比另一种学习算法更优，则肯定会在其它某些方面弱于另一种学习算法。

$N F L$ 定理重要前提：所有“问题”出现的机会相同，或所有问题同等重要。
$N F L$ 定理的启示：不能脱离具体问题，空泛地谈论“什么学习算法”更好，必须针对具体的学习问题。

1.5 发展历程

机器学习是人工智能（artificial intelligence）研究发展到一定阶段的必然产物。

具体发展历程，详见P10，这里只做简单归纳。

20C50S-70S初：“推理期”。只要能赋予机器逻辑推理能力，机器就具有智能。代表：A. Newell 和 H. Simon 的 “逻辑理论家”程序、 “通用问题求解”程序。
$\Downarrow$ 人们认识到，仅有逻辑推理能力是远远实现不了人工智能的。E. A. Feigenbaum等人认为，要使机器具有智能，就必须设法使机器拥有知识。
20C70S中期：“知识期”。这一时期，大量专家系统问世，在许多应用领域取得大量成果。E. A. Feigenbaum被称为 “知识工程”之父 ，在1994年获得图灵奖。
$\Downarrow$ 人们认识到，由人来把知识总结出来再教给计算机是相当困难的，如果机器自己能够学习知识就好了。（R. S. Michalski等人把机器学习研究划分为“从样例中学习”“在问题求解和规划中学习”“通过观察和发现学习”“从指令中学习”等种类）
20C80S：“从样例中学习”的一大主流是符号主义学习，其代表包括决策树和基于逻辑的学习。
$\Downarrow$ 表示能力太强，导致学习过程面临的假设空间太大，复杂度极高。若问题规模稍大就难以有效地进行学习。
20C90S中之前：“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
$\Downarrow$
20C90S中：“统计学习”登场，占据主流舞台。代表技术：支持向量机（SVM） 以及更一般的“核方法”。
$\Downarrow$
21C初：连接主义学习卷土重来，掀起“深度学习”热潮。深度学习狭义地说就是“很多层”的神经网络。

附：Evolution of ML

Year 1950: Turing Test is a game of questions and answers played by a human and a machine (a bot). The goal is to judge whether the machine is a human or otherwise.
Year 1958: Perceptron is a first single-layer Neural Network.
Year 1960: ELIZA is a first Natural Language Processing program.
Year 1967: Nearest Neighbor algorithm.
Year 1970: Backpropagation algorithm for training Neural Networks. Rediscovered in 1986.
Year 1980: First multi-layer feedforward Neural Network (ANN). Year 1989: Reinforcement Learning. Q-Learning algorithm.
Year 1995: Random Forest Algorithm and Support Vector Machines.
Year 1997: Speech Recognition. Recurrent Neural Network (RNN).
Year 2006: Face recognition. Geoffrey Hinton coined ”Deep Learning”
Year 2009: ImageNet neural network for computer vision.
Year 2010: Google Brain formed.
Year 2012: AlexNet. Revolution in CNN architecture (the depth is essential).
Year 2014: Facial recognition. Facebook develops DeepFace. Year 2015: Google speech recognition using LSTM.
Year 2015: Google DeepMind’s AlphaGo.
Year 2015: OpenAI was created.
Year 2018: Samsung introduced Bixby, a virtual assistant.
Year 2020: OpenAI announced GPT-3, aimed at natural language.
Year 2021: Google Brain announced the Switch Transformer (another NLP model).
Year 2021: Cerebras announced Wafer Scale Engine chip (WSE2) with 2.6 trillion transistors.
History of ML

1.6 应用现状

略

1.7 阅读材料

略

Willis Wong

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
《西瓜书》笔记整理——第一章

第一章绪论1.1 引言1.2 基本术语1.3 假设空间1.4 归纳偏好1.5 发展历程1.6 应用现状1.7 阅读材料1.1 引言机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。机器学习研究的主要内容是关于计算机上从数据中产生“模型（model）”的算法，即学习算法（learning algorithm）。1.2 基本术语数据集（data set）：数据的集合。示例（instance）/ 样本（sample）：关于一个事件或对象的描述。属性（attribute）/
复制链接

扫一扫