机器学习概述
标签(空格分隔): 机器学习,台大,笔记
引言
本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。
假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判别结果,判断该个客户是否可靠。为了完成这个任务,我们用logistics分类算法来实现。
某个用户特征
用户特征字段 | 特征值 |
---|---|
age | 23 |
gender | female |
annual salary | 1,000,000 |
year in residence | 1 year |
year in job | 0.5 year |
current debt | 200,000 |
下面我将对机器学习的基本概念进行介绍,我将结合上面提到需求场景来进行介绍
基本概念
Input :
x∈X
X
指样本的特征空间,在案例中是指age,gender这些字段构成的一个空间。
Output:
y∈Y
Y
是输出空间,是输出结果的集合。在本例中
D
: training examples
f
: 目标函数
unknow parttern to be learned
f
就是我们需要挖掘的规律,称为目标函数,这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。
f
与训练数据集
D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)} from f
从上面公式我们可以知道,我们虽然不直接获取
f
,但是数据集
hypothesis set
正如之前所说,
在本文案例中,我们的模型为logistics模型:
gθ(x)=11+e−θTx
。在训练前
θ
是未知的,我们的最终目标通过训练数据集是确定出最优的参数
θ
A
: 算法
算法的工作就是从假设空间(hypothesis set)寻找出最优的模型
在本文案例中,我们采用的算法是logistics回归算法。本文不对该算法进行展开,有关logistics回归的详细介绍请参考[2]
机器学习问题的形式化
下面我们对机器学习过程进行梳理一下,将上面的概念串起来。
整个有监督的机器过程如上图所示,我们的目标是总结出
X↦Y
的规律,也就是目标函数
f
。
首先收集训练数据
由于
f
是不知道的,因此我们用某种模型
最后我们通过训练数据集
D
和算法
现在我们套一下先前假设的需求,把整个流程再梳理一遍:
首先客户的背景特征(age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt )和用户是否可靠有很强的联系,这种规律联系就是目标函数
f
。我们从历史记录中收集到数据集
然后我们假设
X↦Y
服从logistics模型。也就是确定假设空间hypothesis set
H∈{g|y=gθ(x)=11+e−θTx,θ∈Rn}
。
最后我们通过训练数据集
D
和logistics回归算法
References & Resources
- 机器学习基石:L,ecture 1: The Learning Problem
- todo