目录
2.1.1.1线性分类器
0、引言
对于每一类经典模型,都将从模型简介、数据描述、编程实践、性能测评以及特点分析5个角度分别进行阐述。
机器学习中监督学习模型的任务重点在于,根据已有经验知识对未知样本的目标/标记进行预测。根据目标预测变量的类型不同,把监督学习任务大体分为分类学习与回归预测两类。
(1)监督学习任务的基本架构和流程
首先准备训练数据,可以是文本、图像、音频等;然后抽取所需要的特征,形成特征向量;接着,把这些特征向量连同对应的标记/目标一并送入学习算法中,训练出一个预测模型;然后,采用同样的特征抽取方法作用于新测试数据,得到用于测试的特征向量;最后,使用预测模型对这些待测试的特征向量进行预测并得到结果。
(2)分类学习
分类学习是最为常见的监督学习问题,其中,最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;除此之外还有多类分类的问题,即在多于两个类别中选择一个;甚至还有多标签分类问题,与上述二分类以及多类分类问题不同,多标签分类问题判断一个样本是否同时属于多个不同类别。
比如,医生对肿瘤性质的判定;邮政系统对手写体邮编数字进行识别;互联网资讯公司对新闻进行分类;生物学家对物种类型的鉴定;甚至,还能够对某些大灾难的经历者是否生还进行预测等。
1、模型介绍
(1)线性分类器的定义
线性分类器是一种假设特征与分类结果存在线性关系的模型,这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
(2)逻辑斯蒂函数
如果定义来代表n维特征列向量,同时用n维列向量
来代表对应的权重,或者叫做系数;同时为了避免其过坐标原点这种硬性假设,增加一个截距b。由此这种线性关系便可以表达为:
这里的,取值范围分布在整个实数域中。
然而,所要处理的最简单的二分类问题希望;因此需要一个函数把原先的
映射到
。于是想到了逻辑斯蒂函数:
这里的并且
,其函数图像为: