机器学习绪论

机器学习复习

环境与客体统称为“模式”

两个重要方面:光学信息和声学信息

推理-->知识-->学习

机器学习:利用经验改善系统自身的性能

约翰·麦卡锡 人工智能之父

数学家真聪明-->知识就是力量-->让系统自己学

将”数据”转变为”信息”的三大关键技术——机器学习、云计算、众包

基本术语 书

NFL定理

泛化能力:能很好的适用于未知样本

泛化误差:除训练集外所有样本

欠拟合

过拟合:将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降

评估方法关键--获得测试集方法:留出法,k-折交叉验证法,自助法

训练/测试样本比例通常为2:1~4:1

留一法 数据集大不好

自助法:有放回采样 数据集小好

约有1/3的样本没在训练集中出现,对集成学习有很大的 好处,可能引入估计偏差

算法参数由人工设定,超参数,模型参数由学习确定

算法参数选定后,要用“训练集+验证集”重新训练最终模型

性能度量

回归任务常用均方误差

正例,反例 书

根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样 本作为正例进行预测-->P-R曲线

F-score

AUC,ROC

直接选取相应评估方法在相应度量下比大小的方法不可取

回归任务,泛化误差可通过“偏差-方差分解”拆解

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定

偏差-方差窘境

随着训练程度变大,偏差变小,方差变大

样本=示例,属性=特征,属性空间=样本空间=输入空间,标签,训练=学习

监督学习:分类与回归,非监督学习:聚类与降维

模型评估与选择:三个关键问题

如何获得测试结果-评估方法,如何评估性能优劣-性能度量,如何判断实质差别-比较检验

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值