《商业数据分析》读书笔记(四)

4.用数据拟合模型

基本概念:基于数据找到“最优”模型参数;选择数据挖掘的目标;目标函数;损失函数

主要技巧:线性回归;逻辑回归;支持向量机(SVM)

用数据函数分类

线性判别方程

优化目标函数

从数据中挖掘线性判别式的一个例子

用线性判别方程给实例打分和排序

支持向量机简介

通过数学方程回归

类概率估计和逻辑“回归”

*逻辑回归:一些技术细节

例子:逻辑回归VS树归纳

非线性函数,支持向量机,和神经网络

总结

第四章 将模型拟合到数据

 

基本概念:基于数据找到最优模型参数;找到数据挖掘的目标;目标函数;损失函数

基本技术:线性回归;逻辑回归;支持向量机

没有参数的模型称为裸模型。

与决策树不同的是,决策树的有用参数是构建中筛选出来的,而线性回归中裸模型需要指定属性,让数据拟合包含这些属性的模型,找到最佳参数。

 

为了让我们本章讨论专注于参数建模,先做三点简化假设:
1.所有分类都是二分类。

2.因为我们要处理方程,所以假设所有的属性都是数值属性。有技巧可以把类别属性变成数值属性。

 

**

比如,pd.get_dummies()

**

 

3.我们忽视了对有些属性的正则化和缩放,比如年龄和收入变化范围过大。

 

尽管我们本章简化了这些复杂性,但是这些东西对于数据挖掘都是非常重要的。

 

**

简化!今天第二次看到这个主题。

上午看到一篇文章,简介了一本信息论之父克劳德.香农的自传《克劳德.香农是如何创造信息论的》。其中谈到了他的习惯——习惯塑造人生——其中的第十二个重点,就是他关于简化的看法:简化和简单不同。简化是一种重要的思维方式,让我们先解构复杂问题,抓住其重点,集中注意力解决其中最重要的部分,避免被细枝末节分心,这样才能高效的解决问题。

万事万物都有联系,拿破仑打仗的首要原则就是:集中优势兵力解决最重要问题。

 

所以,要有意识的养成简化和专注的思维习惯。

**

 

样本空间的划分——几何解释。

决策树的几何解释,其实是用横平竖直的线(决策边界)将置于坐标系中的样本空间进行划分。

而参数建模,其中的决策边界不一定是横平竖直的,甚至不一定是直线,

 

线性判别式

属性值的权重和。

 

我们通过数据找到(学习)权重值,这些权重常常被解释成为特征的重要性指标。

 

优化目标函数

目标函数通常由数据科学家的信念和经验创造.(?)SVM是其中之一。

 

线性回归,逻辑回归和SVM基本技巧:拟合数据的几个简单实例,不同在于,它们有不同的目标函数。

 

一个从数据中挖掘线性判别式的例子

我很好奇逻辑回归和SVM那两条线是怎么画出来的。

用数据拟合模型,通过让损失函数最小得到参数,然后就学习到了一个含参模型,对于只含花萼宽度和滑板宽度的鸢尾花数据,那就是一条直线,可通过matplotlib画出。

 

 

用线性判别式函数给样本评分和排序

很多情况下我们不需要确切的知道概率估计值是多少,我们给模型n个位置目标值的向量,只需要知道它距离决策边界多远就可以给该向量评分和排序。

 

SVM简介

为了获得直觉上的理解。

不同于逻辑回归将注意力放在样本点上。SVM用样本丛之间的边际来确定最优决策边界。找到可能的最宽的平行虚线之间的边际线,决策边界就是它们的中线。

 

在衡量模型能多大限度的拟合数据集的目标函数中,我们对分类错误的样本点进行简单的惩罚。如果样本不能被线性分割,最好的拟合是尽量宽的边际和最低总惩罚的平衡。对错误分类点其惩罚与它到决策便捷的距离成比例,这样要保证SVM尽量范小错误。(在数学上,通过求目标函数的最大值,来获得SVM)。技术上,这个误差函数叫做合页损失。

损失函数在DS中通常用于误差惩罚。这上面的SVM中,损失函数基于错误分类点到分割线的距离。还可以有其它的计算损失的方法,这种选择是主观随意的。

 

 

比如上述合页损失函数,因为其形状像合页,其惩罚与错误点距分界线的距离呈线性。。

还有0-1损失函数,正确分类损失为0,错误分类损失为1.

作为对比,还有平方误差,其惩罚与错误点距分界线的距离呈二次关系。常用于回归误差中。

 

通过数学方程回归

有许多裸模型(未经过数据拟合,没有具体参数的模型范式)可供选择。

一种最常用的:最小二乘误差by Gauss。它给误差平方使其变大。任何目标函数都有其优势和缺陷。比如最小二乘,它对离群点特别敏感,几个这样的点就会让结果模型大为相异。

对于很多商务问题,我们可能没有资源在数据处理上花费很多时间,极端情况下,对于自动化的建造和应用系统来说,相对于手工分析,模型必须稳健。比如对于前种情况,我们可能要应用更为稳健的方法(比如用绝对距离误差而非距离平方误差)。

总之,在应用回归方法是,我们心里应该清楚必须选择合适的目标函数!

 

类概率估计和逻辑回归

 

对于分类问题,将其相应的概率预测放在心里。

最常用的,不仅能够预测类别,还能够进行相应的概率估计的方法,就是逻辑回归。

 

注意:

什么是准确估计阶级成员的概率是一个超出这本书范围的争论主题。粗略地说,我们希望(i)概率估计被很好地校准,这意味着如果你取100个类成员概率估计为0.2的情况,那么它们中大约有20个实际上属于这个类。我们还希望(ii)概率估计是有区别的,因为如果可能的话,它们会对不同的例子给出有意义的不同的概率估计。后一种情况使我们不能简单地将“基本比率”(人口的总体流行率)作为每个例子的预测。比如说,总人数中有0.5%存在欺诈行为。如果没有条件(ii),我们可以简单地预测每个账户0.5%的概率;这些估计会得到很好的校准——但完全没有区别。

**

我理解就是整体样本概率和单样本概率。它们的计算和含义都是不同的。

**

首先我们思考一个问题:用基本线性模型预测分类概率有什么问题。

因为f(x)值域范围是无穷的,而分类概率是(0,1)

 

**

这一部分没看懂,是给线性回归做了一个代数变化吗?胜率又怎么来呢?

**

 

总之:

对于概率估计,逻辑回归用了与线性回归同样的线性判别式。

 

逻辑回归模型的结果被解释为成员类的胜率对数(胜率哪来???)

 

错误命名:

逻辑回归模型输出的结果虽然是从0到1的数值,但是目标量却是类别量。

 

*更多逻辑回归的技术细节

p+(x)代表样本向量x属于类别+的概率

逻辑回归在本质上就是对线性回归的一个代数变换!找到对应预测值的预测概率,数学家发现了这个等式,并且能够证明p+(x)确实是有实际意义的。

 

 

f(x)属于无穷。

p+(x)属于(0,1)。

 

**

!!!

这个作者不愧是教授,知道普通读者会在哪里出现理解困难,特意进行了说明。

这里我看到了代数的应用。

但是我想和f(x)对应的代数变化使某个关于x的值属于(0,1)不止此一家。这可能是一个猜想或数学证明,总之,它有实际意义。数学家真了不起。

**

例子:逻辑回归VS 决策树

虽然决策树和逻辑回归都用到了线性决策边界,还是有2个重要不同:

1.前者的决策边界是横平竖直的,后者可以是任何方向,因为决策树每次决策都选用一个变量属性。

2.决策树可以随心所欲的进行迭代(只要需要),最后把样本空间分割成小区域(其实要避免这样)。线性分类放置单个决策面,这个决策面包括所有的变量。

 

很难提前就知道某个数据集适合什么模型。那么从实际上讲两者的结果有什么不同?

当应用到商业问题时,对于不同背景的负责人有不同的理解。有统计背景的人更容易理解逻辑回归。

非线性方程,SVM和神经网络

SVM核函数:将原本特征值映射到新的特征空间。

将特征复杂化(线性,多项式化,比如乘方,相乘)或其他,变成新特征加入到特征空间中,可能会将线性方程变为非线性。但是基本概念都是通用的。

 

**

神经网络这部分没看懂,也没仔细看,貌似是模型堆垛,而且从底层到顶层也有进化。

但是作者提到了,神经网络历史悠久,理论和应用范围深而广,值得注意。

**

 

总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值