一,机器学习笔记———基本概念问题

一,机器学习笔记———基本概念Q&A

如何定义机器学习?

机器学习是通过编程让计算机从数据中进行学习的科学
工程性概念:计算机程序利用经验 E 对学习任务 T 的性能为 P ,如果针对任务T的性能P可以随经验E的增长而增长,则称为机器学习。

机器学习可以解决的四类问题?

需要进行大量手工调整或需要拥有长串规则才能解决的问题:机器学习算法通常可以简化代码、提高性能。

问题复杂,传统方法难以解决:最好的机器学习方法可以找到解决方案。

环境有波动:机器学习算法可以适应新数据。

洞察复杂问题和大量数据。

什么是带标签的训练集?

用来训练算法的训练数据包含了答案,称为标签

最常见的两个监督任务是什么?

一个典型的监督学习任务是分类,另一个典型任务是预测目标数值。

指出几个常见的非监督任务?

1.聚类
K 均值
层次聚类分析(Hierarchical Cluster Analysis,HCA)
期望最大值
2.可视化和降维
主成分分析(Principal Component Analysis,PCA)
核主成分分析
局部线性嵌入(Locally-Linear Embedding,LLE)
t-分布邻域嵌入算法(t-distributed Stochastic Neighbor Embedding,t-SNE)
3. 关联性规则学习
Apriori 算法
Eclat 算法

要让一个机器人能在各种未知地形行走,你会采用什么机器学习算法

强化学习

要对你的顾客进行分组,你会采用哪类算法?

聚类,(非监督学习)

垃圾邮件检测是监督学习问题,还是非监督学习问题?

非监督学习

什么是在线学习系统?

可以持续学习,一次可以学习一个或几个实例,占用时间和资源不大。

什么是核外学习?

核外学习 核外学习是在不放不进内存或 RAM 的数据集上训练机器学习模型的任务。

什么学习算法是用相似度做预测?

基于实例学习

模型参数和学习算法的超参数的区别是什么?

超参数是一个学习算法的参数(而不是模型的),超参数是对模型参数所设的特殊条件,由于训练,不会因训练而改变。

基于模型学习的算法搜寻的是什么?最成功的策略是什么?基于模型学习如何做预测?

搜寻的是模型的最优参数,最成功的策略即当模型和实例误差最小时,将数据带入训练好的模型,得到预测值。

机器学习的主要挑战是什么?

“错误的算法”和“错误的数据”两方面
错误的算法:过拟合训练数据,欠拟合训练数据
错误的数据:训练数据量不足,没有代表性的训练数据,低质量数据,不相关的特征

如果模型在训练集上表现好,但推广到新实例表现差,问题是什么?给出三个可能的解决方案。

过拟合训练数据
1.简化模型,可以通过选择一个参数更少的模型(比如使用线性模型,而不是高阶多项式模型)、减少训练数据的属性数、或限制一下模型
2.收集更多的训练数据
3.减小训练数据的噪声(比如,修改数据错误和去除异常值)

什么是测试集,为什么要使用它?

用训练集进行训练,用测试集进行测试。对新样本的错误率称作推广错误(或样本外错误),通过模型对测试集的评估,你可以预估这个错误。这个值可以告诉你,你的模型对新样本的性能。

验证集的目的是什么?

用训练集和多个超参数训练多个模型,选择在验证集上有最佳性能的模型和超参数。当你对模型满意时,用测试集再做最后一次测试,以得到推广误差率的预估。

如果用测试集调节超参数,会发生什么?

测试集本身是用来测试模型对新样本的性能,当使用测试机调节参数,测试集不再是新样本,失去了测试集的意义。

什么是交叉验证,为什么它比验证集好?

为了避免“浪费”过多训练数据在验证集上,通常的办法是使用交叉验证:训练集分成互补的子集,每个模型用不同的子集训练,再用剩下的子集验证。一旦确定模型类型和超参数,最终的模型使用这些超参数和全部的训练集进行训练,用测试集得到推广误差率。

本文用作学习笔记,如有谬误,感谢指正!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值