机器学习概述-CSDN博客

本文链接：https://blog.csdn.net/zhzhji440/article/details/50457746

机器学习概述

标签（空格分隔）：机器学习，台大，笔记

机器学习概述

引言

　　本笔记主要介绍机器学习的基本概念，将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象，因此我结合一个具体案例来配合解释。
　　假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录（如下表），让机器自动输出判别结果，判断该个客户是否可靠。为了完成这个任务，我们用logistics分类算法来实现。
　　
某个用户特征

用户特征字段	特征值
age	23
gender	female
annual salary	1,000,000
year in residence	1 year
year in job	0.5 year
current debt	200,000

　　下面我将对机器学习的基本概念进行介绍，我将结合上面提到需求场景来进行介绍

基本概念

Input : $x \in X$
　　 $X$ 指样本的特征空间，在案例中是指age，gender这些字段构成的一个空间。 $x$ 就是这个特征空间的具体取值，也称为特征向量。如上表，该客户的特征向量为[ 23, female, 1,000,000 ···200,000]

Output: $y \in Y$
　　 $Y$ 是输出空间，是输出结果的集合。在本例中 $Y = \{yes，no\}$
　　
$D$ : training examples
　　 $D=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}$
　　
$f$ : 目标函数
　　 unknow parttern to be learned $\Leftrightarrow$ target function
　　 $f$ 就是我们需要挖掘的规律，称为目标函数，这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。 $f$ 是理想的，我们并不能直接得到，也不知道它的具体形式。
　　 $f$ 与训练数据集 $D$ 的关系如下
　　 $D=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}　from　f$
　　从上面公式我们可以知道，我们虽然不直接获取 $f$ ，但是数据集 $D$ 是服从 $f$ 的，因此我们可以通过 $D$ 来学习出 $f$
　　
hypothesis set $H$ 和 hypothesis $g$
　　正如之前所说， $f$ 是我们学习的目标，但是我们不知道他长什么样。那么我们就假设 $f$ 可以用某种模型 $g$ 来表示，这个模型的所有可能的集合称为假设空间(hypothesis set) $H$ ，机器学习的目标就是从假设空间 $H$ 寻找出最好的那个一个模型 $g$ ，使得 $g\approx f$ 。 $g$ 形式可以是某种决策函数或者条件概率分布的形式。即 $H \in \{g | y=g_\theta(x),\theta \in R^n\}$ 或者 $H \in \{g | g=P_\theta(y|x),\theta \in R^n\}$ ，这里 $\theta$ 称为参数空间。
　　
　　在本文案例中，我们的模型为logistics模型: $g_\theta(x)=\frac{1}{1+e^{-\theta^T x} }$ 。在训练前 $\theta$ 是未知的，我们的最终目标通过训练数据集是确定出最优的参数 $\theta$
　　
$A$ : 算法
　　算法的工作就是从假设空间(hypothesis set)寻找出最优的模型 $g$ 。换句话说，算法的任务就是根据某种优化策略，估计出最优的参数 $\theta$ ，使得 $g\approx f$ 。
　　在本文案例中，我们采用的算法是logistics回归算法。本文不对该算法进行展开，有关logistics回归的详细介绍请参考[2]
　　

机器学习问题的形式化

　　下面我们对机器学习过程进行梳理一下，将上面的概念串起来。
　　整个有监督的机器过程如上图所示，我们的目标是总结出 $X\mapsto Y$ 的规律，也就是目标函数 $f$ 。
　　首先收集训练数据 $D$ 作为。
　　由于 $f$ 是不知道的，因此我们用某种模型 $g$ 进行替代，这个模型有一组参数 $\theta$ 待确定。
　　最后我们通过训练数据集 $D$ 和算法 $A$ ，通过某种最优化策略，确定出最优的 $g$ ，也就是确定参数 $\theta$ 。
　　
　　现在我们套一下先前假设的需求，把整个流程再梳理一遍：
　　首先客户的背景特征（age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt ）和用户是否可靠有很强的联系，这种规律联系就是目标函数 $f$ 。我们从历史记录中收集到数据集 $D$ 。
　　然后我们假设 $X\mapsto Y$ 服从logistics模型。也就是确定假设空间hypothesis set $H \in \{g | y=g_\theta(x)=\frac{1}{1+e^{-\theta^T x} } ,\theta \in R^n\}$ 。
　　最后我们通过训练数据集 $D$ 和logistics回归算法 $A$ ，通过最大似然方法构造的损失函数，求解出最优的参数 $\theta$

References & Resources

机器学习基石：L,ecture 1: The Learning Problem
todo