《机器学习》阅读笔记（一）

最新推荐文章于 2020-06-27 16:22:42 发布

ziuno

最新推荐文章于 2020-06-27 16:22:42 发布

阅读量188

点赞数

分类专栏：机器学习笔记文章标签：机器学习周志华

本文链接：https://blog.csdn.net/ziuno/article/details/100572284

版权

笔记同时被 2 个专栏收录

34 篇文章 0 订阅

订阅专栏

机器学习

12 篇文章 0 订阅

订阅专栏

《机器学习》阅读笔记（一）

1 绪论

1.2 基本术语

术语	en	描述
数据集	data set	记录的集合（每条记录是关于一个事件或对象的描述，称为一个“示例”(instance)或“样本”(sample)）
属性/特征	attribute/feature	反映事件或对象在某方面的表现或性质的事项
属性值	attribute value	属性上的取值
属性空间/样本空间/输入空间	attribute space/sample space/-	属性张成的空间
特征向量	feature vector	一个示例

一般地
$D=\{x_1,x_2,\dots,x_m\}$

$D$ ：表示包含 $m$ 个示例的数据集
$x_i$ ：每个示例由 $d$ 个属性描述，则每个示例 $x_i=(x_{i1};x_{i2};\dots;x_{id})$ 是 $d$ 维样本空间 $\mathcal{X}$ 中的一个向量， $x_i\in \mathcal{X}$ ，其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值
$d$ ：样本 $x_i$ 的维数

术语	en	描述
学习/训练	learning/training	从数据中学得模型的过程
训练数据	training data	训练过程中使用的数据
训练样本	training sample	训练数据中的每一个样本
训练集	training set	训练样本组成的集合
假设	hypothesis	学得模型对应的关于数据的某种潜在的规律
真相/真实	ground-truth	这种潜在规律自身
学习器	learner	模型（学习算法在给定数据和参数空间上的实例化）

术语	en	描述
标记	label	关于示例结果的信息
样例	example	拥有了标记信息的示例

一般地

$x_i,y_i)$ ：第 $i$ 个样例
$y_i\in\mathcal{Y}$ ：示例 $x_i$ 的标记
$\mathcal{Y}$ ：所有标记的集合（标记空间(label space)或输出空间））

预测	学习任务	en
离散值	分类	classification
连续值	回归	regression

分类（学习任务）	en	描述
二分类	binary classification	通常称其中一个类为“正类”(positive class)，另一个类为“反类”(negative class)
多分类	multi-class classification	涉及多个类别

预测任务：对训练集 $\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\}$ 进行学习，建立一个从输入空间 $\mathcal{X}$ 到输出空间 $\mathcal{Y}$ 的映射 $f:\mathcal{X}\mapsto\mathcal{Y}$

任务	$\mathcal{Y}$
二分类任务	$\mathcal{Y}=\{-1,+1\}$ 或 ${0,1\}$
多分类任务	I $\mathcal{Y}$ I $> 2$
回归任务	$\mathcal{Y}=\mathbb{R}$ ， $\mathbb{R}$ 为实数集

术语	en	描述
测试	testing	学得模型后，使用其进行预测的过程
测试样本	testing sample	被预测的样本

聚类(clustering)：将训练集中的西瓜分成若干组，每组称为一个“簇”(cluster)

是否有标记的信息	学习任务	en	代表
是	监督学习	supervised learning	分类/回归
否	无监督学习	unsupervised learning	聚类

泛化(generalization)：学得模型适用于新样本

1.3 假设空间

版本空间(version space)：可能有多个假设与训练集一致，存在着一个与训练集一致的“假设集合”。

1.4 归纳偏好

归纳偏好(inductive bias)（偏好）：机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀(Occam’s razor)（一种常用的、自然科学研究中最基本的原则）：若有多个假设与观察一致，则选最简单的那个。
为简单起见，假设

$\mathcal{X}$ ：样本空间（离散）
$\mathcal{H}$ ：假设空间（离散）
$P(h|X,\mathfrak{L}_a)$ ：算法 $\mathfrak{L}_a$ 基于训练数据 $X$ 产生假设 $h$ 的概率
$f$ ：希望学习的真实目标函数
$\mathfrak{L}_a$ 的“训练集外误差”为
$E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_h\sum\limits_{x\in\mathcal{X}-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,\mathfrak{L}_a)$
其中， $\mathbb{I}(\cdot)$ 是指示函数，若·为真则取值1，否则取值0。

对于二分类问题，且真实目标函数可以是任何函数 $\mathcal{X}\mapsto\{0,1\}$ ，函数空间为 $\{0,1\}^{|\mathcal{X}|}$ 。对所有可能的 $f$ 按均匀分布对误差求和，有
$\sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=2^{|\mathcal{X}|-1}\sum\limits_{x\in\mathcal{X}-X}P(x)$
即，对于任意两个学习算法 $\mathfrak{L}_a$ 和 $\mathfrak{L}_b$ ，都有 $\sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_{f}E_{ote}(\mathfrak{L}_b|X,f)$ 显示出，总误差与学习算法无关。这就是“没有免费的午餐”定理(NFL定理)。

习题

$\fbox{（色泽=青绿；根蒂=蜷缩；敲声=浊响）}$

若仅根据1和4两个样例，没有其他已知条件的情况下，只能得知一个假设。

9个合取式

首先，有好瓜，且 $* ； * ； *$ 的情况不符合
假设：

两个 $*$
1. $* ；蜷缩； *$
2. $* ； * ；浊响$
3. $浅白； * ； *$
一个 $*$
1. $* ；稍蜷；清脆$
2. $* ；硬挺；沉闷$
3. $青绿； * ；沉闷$
4. $乌黑； * ；清脆$
5. $乌黑；硬挺； *$
6. $青绿；稍蜷； *$
0个 $*$

共计9种，故一共9个合取式。

答：
书中获得结果的方法：“搜索过程中可以不断删除与正例不一致的假设、和（或）与反例一致的假设”。
数据包含噪声，则在此情形下，可以在搜索过程中加以改进，即“搜索过程中，可以对与正例不一致的假设、和（或）与反例一致的假设，附加该假设的罚分，在搜索的过程中累积”，最终罚分最低的假设应该是想要的假设。
$\sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)\\ =\sum\limits_{f}\sum\limits_{h}\sum\limits_{x\in\mathcal{X}-X}P(x)\ell(h(x),f(x))P(h|X,\mathcal{L}_a) \\=\sum\limits_{x\in\mathcal{X}-X}P(x)\sum\limits_{h}P(h|X,\mathcal{L}_a)\sum\limits_{f}\ell(h(x),f(x))\\ =\sum\limits_{x\in\mathcal{X}-X}P(x)\cdot1\cdot\sum\limits_{f}\ell(h(x),f(x))$
作用
1. 搜索引擎中广告的投放
2. 根据点击数及其他因素对搜索结果进行排序

ziuno

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》阅读笔记（一）

《机器学习》阅读笔记2019.9.61 绪论1.2 基本术语术语en描述数据集data set记录的集合（每条记录是关于一个事件或对象的描述，称为一个“示例”(instance)或“样本”(sample)）属性/特征attribute/feature反映事件或对象在某方面的表现或性质的事项属性值attribute value属性上的取值属...
复制链接

扫一扫