《Python机器学习及实践:从零开始通往Kaggle竞赛之路》第2章 基础篇 学习笔记(一)2.1.1.1线性分类器总结

 

目录

2.1.1.1线性分类器

0、引言

(1)监督学习任务的基本架构和流程

(2)分类学习

1、模型介绍

(1)线性分类器的定义

(2)逻辑斯蒂函数

(3)逻辑斯蒂回归模型

2、数据描述

(1)数据下载

(2)数据描述

(3)数据预处理

(4)训练和测试数据

3、编程实践

4、性能测评

5、特点分析


2.1.1.1线性分类器

0、引言

对于每一类经典模型,都将从模型简介数据描述编程实践性能测评以及特点分析5个角度分别进行阐述。

机器学习中监督学习模型的任务重点在于,根据已有经验知识对未知样本的目标/标记进行预测。根据目标预测变量的类型不同,把监督学习任务大体分为分类学习与回归预测两类。

(1)监督学习任务的基本架构和流程

首先准备训练数据,可以是文本、图像、音频等;然后抽取所需要的特征,形成特征向量;接着,把这些特征向量连同对应的标记/目标一并送入学习算法中,训练出一个预测模型;然后,采用同样的特征抽取方法作用于新测试数据,得到用于测试的特征向量;最后,使用预测模型对这些待测试的特征向量进行预测并得到结果。

(2)分类学习

分类学习是最为常见的监督学习问题,其中,最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果;除此之外还有多类分类的问题,即在多于两个类别中选择一个;甚至还有多标签分类问题,与上述二分类以及多类分类问题不同,多标签分类问题判断一个样本是否同时属于多个不同类别。

比如,医生对肿瘤性质的判定;邮政系统对手写体邮编数字进行识别;互联网资讯公司对新闻进行分类;生物学家对物种类型的鉴定;甚至,还能够对某些大灾难的经历者是否生还进行预测等。

1、模型介绍

(1)线性分类器的定义

线性分类器是一种假设特征与分类结果存在线性关系的模型,这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。

(2)逻辑斯蒂函数

如果定义x=<x_{1},x_{2},...,x_{n}>来代表n维特征列向量,同时用n维列向量w=<w_{1},w_{2},...,w_{n}>来代表对应的权重,或者叫做系数;同时为了避免其过坐标原点这种硬性假设,增加一个截距b。由此这种线性关系便可以表达为:

f(w,x,b)=w^{T}x+b......(1)

这里的f\in R,取值范围分布在整个实数域中。

然而,所要处理的最简单的二分类问题希望f\in (0,1);因此需要一个函数把原先的f\in R映射到(0,1)。于是想到了逻辑斯蒂函数

g(z)=\frac{1}{1+e^{-z}}......(2)

这里的z\in R并且g\in (0,1),其函数图像为:

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值