机器学习概述

机器学习概述

标签(空格分隔): 机器学习,台大,笔记


引言

  本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。
  假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判别结果,判断该个客户是否可靠。为了完成这个任务,我们用logistics分类算法来实现。
  
某个用户特征

用户特征字段特征值
age23
genderfemale
annual salary1,000,000
year in residence1 year
year in job0.5 year
current debt200,000

  下面我将对机器学习的基本概念进行介绍,我将结合上面提到需求场景来进行介绍

基本概念

Input : xX
   X 指样本的特征空间,在案例中是指age,gender这些字段构成的一个空间。x就是这个特征空间的具体取值,也称为特征向量。如上表,该客户的特征向量为[ 23, female, 1,000,000 ···200,000]

Output: yY
   Y 是输出空间,是输出结果的集合。在本例中 Y={yesno}
  
D : training examples
  D={(x1,y1),(x2,y2),,(xn,yn)}
  
f : 目标函数
   unknow parttern to be learned target function
   f 就是我们需要挖掘的规律,称为目标函数,这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。f是理想的,我们并不能直接得到,也不知道它的具体形式。
   f 与训练数据集D的关系如下
   D={(x1,y1),(x2,y2),,(xn,yn)} from f
  从上面公式我们可以知道,我们虽然不直接获取 f ,但是数据集D是服从 f 的,因此我们可以通过D来学习出 f
  
hypothesis set H 和 hypothesis g
  正如之前所说,f是我们学习的目标,但是我们不知道他长什么样。那么我们就假设 f 可以用某种模型g来表示,这个模型的所有可能的集合称为假设空间(hypothesis set) H ,机器学习的目标就是从假设空间H寻找出最好的那个一个模型 g ,使得gf g 形式可以是某种决策函数或者条件概率分布的形式。即H{g|y=gθ(x),θRn}或者 H{g|g=Pθ(y|x),θRn} ,这里 θ 称为参数空间。
  
  在本文案例中,我们的模型为logistics模型: gθ(x)=11+eθTx 。在训练前 θ 是未知的,我们的最终目标通过训练数据集是确定出最优的参数 θ
  
A : 算法
  算法的工作就是从假设空间(hypothesis set)寻找出最优的模型g。换句话说,算法的任务就是根据某种优化策略,估计出最优的参数 θ ,使得 gf
  在本文案例中,我们采用的算法是logistics回归算法。本文不对该算法进行展开,有关logistics回归的详细介绍请参考[2]
  

机器学习问题的形式化

机器学习问题流程

  下面我们对机器学习过程进行梳理一下,将上面的概念串起来。
  整个有监督的机器过程如上图所示,我们的目标是总结出 XY 的规律,也就是目标函数 f
  首先收集训练数据D作为。
  由于 f 是不知道的,因此我们用某种模型g进行替代,这个模型有一组参数 θ 待确定。
  最后我们通过训练数据集 D 和算法A,通过某种最优化策略,确定出最优的 g ,也就是确定参数θ
  
  现在我们套一下先前假设的需求,把整个流程再梳理一遍:
  首先客户的背景特征(age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt )和用户是否可靠有很强的联系,这种规律联系就是目标函数 f 。我们从历史记录中收集到数据集D
  然后我们假设 XY 服从logistics模型。也就是确定假设空间hypothesis set H{g|y=gθ(x)=11+eθTx,θRn}
  最后我们通过训练数据集 D 和logistics回归算法A,通过最大似然方法构造的损失函数,求解出最优的参数 θ

References & Resources

  1. 机器学习基石:L,ecture 1: The Learning Problem
  2. todo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值