机器学习--整体整理

北堂飘霜

于 2024-04-06 21:39:45 发布

阅读量640

点赞数 9

分类专栏： AI 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45487988/article/details/137438418

版权

AI 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文概述了机器学习的基础概念，包括监督和无监督学习任务，如分类、回归和聚类，以及在线学习和核外学习的特点。讨论了模型参数与超参数的区别，强调了过拟合和欠拟合问题，并介绍了测试集、验证集和交叉验证在模型评估中的作用。作者计划深化学习Python机器学习框架，以解决实际问题。

摘要由CSDN通过智能技术生成

场景

学习机器学习有一阵子了，已经了解了不少机器学习的算法和知识，甚至前面训练了一些demo模型，现在是时候整体的整理一下我的知识了。

整理

还是从学习三要素开始，WHAT，WHY，HOW

什么是机器学习？

机器学习是一种人工智能的分支，其目标是通过对数据进行学习，使计算机系统能够从数据中学习并改进，并且掌握一些规律，而无需显式地进行编程。

机器学习为了什么，解决哪些问题？

分类：将实例分到预定义的类别中。
例如：

电子商务平台根据用户购买历史将用户分为不同的消费者类型，如高消费者、低消费者等
医学诊断系统根据患者的症状将疾病分为不同的类别

回归：预测连续值输出。
例如：

房价预测：根据房屋的特征（如面积、地理位置等）预测房价。

聚类：将数据集中的实例分成相似的组。
例如：

市场细分：根据消费者的购买行为将市场细分为不同的消费者群体，以便制定针对性的营销策略。
新闻主题分类：将大量的新闻文章按照相似的主题进行分类，方便用户查找感兴趣的内容。

降维：减少数据维度，保留最重要的信息。
例如：

图像处理：将高分辨率图像降维到更低的维度。
文本挖掘：将大量的文本数据降维到更低维度的表示。

最常见的两种监督式学习任务是什么？

最常见的两种监督式学习任务是分类和回归。

什么是被标记的训练数据集？

被标记的训练数据集是指每个实例都有对应的标签或输出结果的数据集。

常见的无监督式学习任务有哪些？

无监督式学习任务包括聚类、降维、关联规则学习和异常检测。

要让一个机器人在各种未知的地形中行走，你会使用什么类型的机器学习算法？

强化学习算法，]包括深度强化学习算法，来让机器人在尝试中学习如何最大化累积奖励。

要将顾客分成多个组，你会使用什么类型的算法？

聚类算法

你会将垃圾邮件检测的问题列为监督式学习还是无监督式学习？

监督式学习

什么是在线学习系统？

在线学习区别于这个批量学习，批量学习指的是训练整体数据集，所谓在线学习，就是支持增量。它可以逐步接收新数据并自动适应，缺点是可能会有知识遗忘。

什么是核外学习？

在核外学习中，数据量太大以至于无法一次性加载到内存中，因此需要在有限的内存空间下进行模型训练和处理。这种情况下，通常采用分块加载数据的方式，每次从存储介质中读取一部分数据到内存中，进行模型训练或预测，然后释放内存，再加载下一部分数据，如此往复，直到处理完整个数据集。这个在QA机器人中有实战，数据集包含数十几万条文本记录，无法一次性加载到内存中，所以将数据集分成多个较小的块，每个块包含一部分文本记录。然后，模型可以逐块加载数据，进行训练。在每个训练步骤中，模型只使用当前块中的数据，而不是整个数据集。