一，机器学习笔记———基本概念问题

最新推荐文章于 2022-06-01 19:42:20 发布

代码才是本体

最新推荐文章于 2022-06-01 19:42:20 发布

阅读量399

点赞数 1

分类专栏：机器学习文章标签：机器学习算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52815467/article/details/119319813

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一，机器学习笔记———基本概念`Q&A`

如何定义机器学习？

机器学习是通过编程让计算机从数据中进行学习的科学
工程性概念:计算机程序利用经验 E 对学习任务 T 的性能为 P ，如果针对任务T的性能P可以随经验E的增长而增长，则称为机器学习。

机器学习可以解决的四类问题？

需要进行大量手工调整或需要拥有长串规则才能解决的问题：机器学习算法通常可以简化代码、提高性能。

问题复杂，传统方法难以解决：最好的机器学习方法可以找到解决方案。

环境有波动：机器学习算法可以适应新数据。

洞察复杂问题和大量数据。

什么是带标签的训练集？

用来训练算法的训练数据包含了答案，称为标签

最常见的两个监督任务是什么？

一个典型的监督学习任务是分类,另一个典型任务是预测目标数值。

指出几个常见的非监督任务？

1.聚类
K 均值
层次聚类分析（Hierarchical Cluster Analysis，HCA）
期望最大值
2.可视化和降维
主成分分析（Principal Component Analysis，PCA）
核主成分分析
局部线性嵌入（Locally-Linear Embedding，LLE）
t-分布邻域嵌入算法（t-distributed Stochastic Neighbor Embedding，t-SNE）
3. 关联性规则学习
Apriori 算法
Eclat 算法

要让一个机器人能在各种未知地形行走，你会采用什么机器学习算法

强化学习

要对你的顾客进行分组，你会采用哪类算法？

聚类，（非监督学习）

垃圾邮件检测是监督学习问题，还是非监督学习问题？

非监督学习

什么是在线学习系统？

可以持续学习，一次可以学习一个或几个实例，占用时间和资源不大。

什么是核外学习？

核外学习核外学习是在不放不进内存或 RAM 的数据集上训练机器学习模型的任务。

什么学习算法是用相似度做预测？

基于实例学习

模型参数和学习算法的超参数的区别是什么？

超参数是一个学习算法的参数（而不是模型的），超参数是对模型参数所设的特殊条件，由于训练，不会因训练而改变。

基于模型学习的算法搜寻的是什么？最成功的策略是什么？基于模型学习如何做预测？

搜寻的是模型的最优参数，最成功的策略即当模型和实例误差最小时，将数据带入训练好的模型，得到预测值。

机器学习的主要挑战是什么？

“错误的算法”和“错误的数据”两方面
错误的算法：过拟合训练数据，欠拟合训练数据
错误的数据：训练数据量不足，没有代表性的训练数据，低质量数据，不相关的特征

如果模型在训练集上表现好，但推广到新实例表现差，问题是什么？给出三个可能的解决方案。

过拟合训练数据
1.简化模型，可以通过选择一个参数更少的模型（比如使用线性模型，而不是高阶多项式模型）、减少训练数据的属性数、或限制一下模型
2.收集更多的训练数据
3.减小训练数据的噪声（比如，修改数据错误和去除异常值）

什么是测试集，为什么要使用它？

用训练集进行训练，用测试集进行测试。对新样本的错误率称作推广错误（或样本外错误），通过模型对测试集的评估，你可以预估这个错误。这个值可以告诉你，你的模型对新样本的性能。

验证集的目的是什么？

用训练集和多个超参数训练多个模型，选择在验证集上有最佳性能的模型和超参数。当你对模型满意时，用测试集再做最后一次测试，以得到推广误差率的预估。

如果用测试集调节超参数，会发生什么？

测试集本身是用来测试模型对新样本的性能，当使用测试机调节参数，测试集不再是新样本，失去了测试集的意义。

什么是交叉验证，为什么它比验证集好？

为了避免“浪费”过多训练数据在验证集上，通常的办法是使用交叉验证：训练集分成互补的子集，每个模型用不同的子集训练，再用剩下的子集验证。一旦确定模型类型和超参数，最终的模型使用这些超参数和全部的训练集进行训练，用测试集得到推广误差率。

本文用作学习笔记，如有谬误，感谢指正！

代码才是本体

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一，机器学习笔记———基本概念问题

一，机器学习笔记———基本概念问题如何定义机器学习？机器学习是通过编程让计算机从数据中进行学习的科学工程性概念:计算机程序利用经验 E 对学习任务 T 的性能为 P ，如果针对任务T的性能P可以随经验E的增长而增长，则称为机器学习。机器学习可以解决的四类问题？需要进行大量手工调整或需要拥有长串规则才能解决的问题：机器学习算法通常可以简化代码、提高性能。问题复杂，传统方法难以解决：最好的机器学习方法可以找到解决方案。环境有波动：机器学习算法可以适应新数据。洞察复杂问题和大量数据。什么是带标签
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。