一、人工智能历史简介
1956年夏达特茅斯会议标志着人工智能这一学科的诞生。
第一阶段:推理期
1956-1960年代:逻辑推理
主要成就: 自动定理证明系统 (例如,西蒙与纽厄尔的“Logic Theorist”系统)
第二阶段:知识期
1970s -1980s:知识工程
主要成就: 专家系统 (例如,费根鲍姆等人的“DENDRAL”系统)
第三阶段:学习期
20世纪90年代-现在:机器学习
二、基本术语

监督学习(Supervised Learning):监督学习是从标记的训练数据来推断一个功能的机器学习任务。如分类、回归。
无监督学习(Unsupervised Learning):无监督学习的问题是,在未标记的数据中,试图找到隐藏的结构。如聚类、密度估计。
强化学习(Reinforcement Learning):强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
机器学习的基本过程:
表示:将数据对象进行特征(feature)化表示。
训练:给定一个数据样本集,从中学习出规律(模型)目标:该规律不仅适用于训练数据,也适用于未知数据(称为泛化能力)
测试:对于一个新的数据样本,利用学到的模型进行预测

三、模型评估与选择
误差:样本真实输出与预测输出之间的差异
– 训练(经验)误差:训练集上
– 测试误差:测试集
– 泛化误差:除训练集外所有样本
我们希望得到泛化误差小的学习器,然而我们实现并不知道新样本是什么样的,实际能做的是努力使经验误差最小化。
欠拟合:对训练样本的一般性质尚未学好
过拟合: 学习器把训练样本学习的“太好”,将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降
如何获得测试集?
测试集应该与训练集“互斥”
(1)留出法
直接将数据集划分为两个互斥集合
训练/测试集划分要尽可能保持数据分布的一致性
一般若干次随机划分、重复实验取平均值
训练/测试样本比例通常为2:1~4:1
(2)k-折交叉验证法
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10

(3)自助法

实际模型与预期模型都使用 m个训练样本。
约有1/3的样本没在训练集中出现。
从初始数据集中产生多个不同的训练集,对集成学习有很大的好处。
自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。
调参与选择最终模型:
算法的参数:一般由人工设定,亦称“超参数”
模型的参数:一般由学习确定
测试集:模型评估与选择中用于评估测试的数据集。
例如:在研究对比不同算法的性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练集划分为训练集和验证集,基于验证集上的性能进行模型选择和调参
性能度量:
对于回归(regression) 任务常用均方误差:

对于分类任务,错误率和精度是最常用的两种性能度量:
错误率:分错样本占样本总数的比例
精度:分对样本占样本总数的比率
混淆矩阵:

P-R曲线、BEP:
根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线”。
平衡点(BEP)是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低。

F-score:
F1 度量:


ROC、AUC:
AUC:ROC曲线下的面积,AUC越大模型的效果越好。

偏差-方差分解:

bias:偏差;variance:方差
