机器学习复习
环境与客体统称为“模式”
两个重要方面:光学信息和声学信息
推理-->知识-->学习
机器学习:利用经验改善系统自身的性能
约翰·麦卡锡 人工智能之父
数学家真聪明-->知识就是力量-->让系统自己学
将”数据”转变为”信息”的三大关键技术——机器学习、云计算、众包
基本术语 书
NFL定理
泛化能力:能很好的适用于未知样本
泛化误差:除训练集外所有样本
欠拟合
过拟合:将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降
评估方法关键--获得测试集方法:留出法,k-折交叉验证法,自助法
训练/测试样本比例通常为2:1~4:1
留一法 数据集大不好
自助法:有放回采样 数据集小好
约有1/3的样本没在训练集中出现,对集成学习有很大的 好处,可能引入估计偏差
算法参数由人工设定,超参数,模型参数由学习确定
算法参数选定后,要用“训练集+验证集”重新训练最终模型
性能度量
回归任务常用均方误差
正例,反例 书
根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样 本作为正例进行预测-->P-R曲线
F-score
AUC,ROC
直接选取相应评估方法在相应度量下比大小的方法不可取
回归任务,泛化误差可通过“偏差-方差分解”拆解
泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定
偏差-方差窘境
随着训练程度变大,偏差变小,方差变大
样本=示例,属性=特征,属性空间=样本空间=输入空间,标签,训练=学习
监督学习:分类与回归,非监督学习:聚类与降维
模型评估与选择:三个关键问题
如何获得测试结果-评估方法,如何评估性能优劣-性能度量,如何判断实质差别-比较检验