自从读大学后还没有认真静心地看过一本专业书,研究生很快也会结束的,因为某些原因,想要好好地沉浸在学习,另外也是想充实自己提升自己,所以准备来啃几本专业书,第一本选这个,因为是机器学习和数据挖掘方面比较出名的书,之前也听找工作的学长提过,另外就是最近在看kaggle,希望正规地学些基础知识。
一共200页出头,计划每天抽时间看10页,希望自己可以坚持,体验 埋书苦读。
希望现在开始认真学习不算太晚。立flag —— 2019/01/21
统计学习概览
- 定义:
计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习(statistical machine learning) - 研究对象
数据(多样) - 基本假设
同类数据具有一定的统计规律性 - 数据类型
连续、离散 - 方法
- 统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)组成
- 监督学习下统计学习方法概括:
从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据和未知测试数据在给定的评价准则下具有最优预测;最有模型的选取由算法实现 - 统计学习方法三要素
- 模型的假设空间——模型(model)
- 模型选择的准则——策略(strategy)
- 模型学习的算法——算法(algorithm)
- 实现统计学习方法的步骤
- 得到有限训练集
- 确定假设空间,及学习模型的集合
- 确定模型选择准则(策略)
- 实现求解最优模型算法
- 通过学习方法选择最优模型
- 利用最优模型对新数据进行预测分析
- 重要性
- 处理海量数据
- 智能化
监督学习
基本概念
- 输入空间(input space)与输出空间:输入与输出所有可能取值的集合
- 可以不同;可以有限
- 实例(instance):每个具体的输入
- 通常由特征向量(feature vector)表示
- 特征空间(feature space):所有特征向量存在的空间
- 并不一定就是输入空间,模型实际上是定义在特征空间上
- 样本(sample):输入与输出对
- 回归问题:输入与输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入输出均为变量序列的预测问题
- 联合概率分布p(x,y)。x和y具有联合概率分布的假设就是监督学习关于数据的基本假设
- 监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或**决策函数(decision function)**Y=f(X)表示
问题形式化
三要素
- 模型——所要学习的条件概率分布或决策函数
- 假设空间通常是由一个参数向量决定的 族,称为参数空间
- 策略
- 损失函数(loss function):f(X)和Y的非负实值函数
- 风险函数(risk function)或期望损失(expected loss):损失函数的期望
- 期望风险和经验风险
- 经验风险最小化策略(empirical risk minimization,ERM)
- 例——极大似然估计
- 样本容量过小时容易出现“过拟合(over fitting)”
- 结构风险最小化(structural risk minimization,SRM)
- 等价于正则化(regularization)
- 结构风险定义与例子
- 损失函数(loss function):f(X)和Y的非负实值函数
- 算法——求解最优化问题的算法
模型评估与选择
- 泛化能力(generalization ability)
- 过拟合——所选模型复杂度比真模型高