人工智能导论期末复习一

Alonzo de blog

已于 2022-11-07 20:49:45 修改

阅读量563

点赞数 1

文章标签：人工智能

于 2022-11-05 15:53:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57025392/article/details/127704755

版权

人工智能

什么是人工智能

人工智能定义：

人工智能是研究、开发用于模拟、延申和扩展人的智能的理论、方法、技术及应用系统的一门新的技术学科

强人工智能：具备与人类同等或者超越人类智慧，具有心智和意识，能根据自己意图开展行动

弱人工智能：面向特定的问题或任务

	1. 计算机视觉
	1. 语音识别
	1. 自然语言处理
	1. 推荐系统
	1. 专家系统

人工智能、机器学习、深度学习的关系

在这里插入图片描述

机器学习

机器学习是人工智能中产生的一个重要学科分类，是实现智能化的关键

什么是机器学习

机器学习：

经典定义：利用经验改善系统自身的性能

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获得新知识或技能

基本术语

在这里插入图片描述

在这里插入图片描述

有监督学习与无监督学习

有标记的学习是监督学习，无标记的学习是无监督学习

半监督学习：有监督学习与无监督学习的结合

机器学习的步骤

准备阶段

数据预处理：数据清洗、数据采样、数据拆分

特征工程：特征编码、特征选择、特征降维、规范化

机器学习

数据建模：一般过程、回归问题、分类问题、聚类问题

模型评估：查准率、查全率、F1值、PR曲线

数据预处理

数据清洗、数据采样、数据拆分

数据清洗

对各种肮脏数据进行对应方式的处理，得到 **标准、干净、连续的数据 ** ，提供给数据统计、数据挖掘等使用。

数据清理的原则：

数据的完整性
数据的合法性
数据的一致性
数据的唯一性
数据的权威性

数据清理的方法:

丢弃部分数据
补全缺失的数据
不处理数据
真值转换法

数据采样

数据不平衡：指数据集的类别分布不均

解决方法：过采样、欠采样

过采样：通过随机复制少数类来增加其中的实例数量，从而可增加样本中少数类的代表性。

欠采样：通过随机地消除占多数地类地样本来平衡类分布

数据拆分

机器学习中将数据划分为3份：

训练数据集：用来构建机器学习的模型
验证数据集：辅助构建模型，用于在构建过程中评估模型，提供无偏估计，进而调整参数模型
测试数据集：用来评估训练好的最终模型的性能

常用的拆分方法：

留出法
K-折交叉验证法

K-折交叉验证:

K折交叉验证用于模型调优，找到使得模型泛化性能最优的超参值。

K折交叉验证使用了无重复抽样技术的好处：每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。

如果训练数据集相对较小，则增大k值。增大k值，在每次迭代过程中将会有更多的数据用于模型训练，能够得到最小偏差，同时算法时间延长。且训练块间高度相似，导致评价结果方差较高。

如果训练集相对较大，则减小k值。减小k值，降低模型在不同的数据块上进行重复拟合的性能评估的计算成本，在平均性能的基础上获得模型的准确评估。

特征工程

特征编码、特征选择、特征降维、规范化

特征编码

数据集中经常会出现字符串信息，不能直接用于算法计算，需要将这些数据转化为数值形式进行编码。

one-hot编码

语义编码

特征选择

特征选择的方法：

过滤法
包裹法
嵌入法

特征降维

特征选择完成后，可能由于特征矩阵过大，导致计算量大、训练时间长，因此降低特征矩阵维度也是必不可少的

特征降维的方法：

主成分分析
线性判别分析

规范化

不同属性具有不同量级时会导致:①数量级的差异将导致量级较大的属性占据主导地位;②数量级的差异将导致迭代收敛速度减慢;③依赖于样本距离的算法对于数据的数量级非常敏感。

规范化方法：

标准化

通过减去均值然后除以方差(或标准差)，将数据按比例缩放，使之落入一个小的特定区间。
适用于:如果数据的分布本身就服从正态分布，就可以用这个方法。
区间缩放

将属性缩放到一个指定的最大和最小值（通常是1-0)之间。
归一化

将某一属性特征的模长转化成1。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Alonzo de blog CSDN认证博客专家 CSDN认证企业博客

码龄3年

86: 原创

23万+: 周排名

17万+: 总排名

6万+: 访问

: 等级

1225: 积分

446: 粉丝

353: 获赞

10: 评论

278: 收藏

私信

关注

热门文章

分类专栏

力扣付费 10篇
前端 10篇
Spring 24篇
SpringBoot 13篇
java基础 19篇
数据库 8篇
hadoop 12篇
Mybatis 2篇
编程风格 1篇
数据结构与算法 1篇

最新评论

RabbitMQ交换机与队列
m0_68949064: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文。
SpringBoot AOP
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
SpringBoot AOP
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
关于hive在运行insert时失败原因刨析
玉铂: 你要把设置yarn内存那个文件名标注出来啊
hadoop分布式文件系统
新城已无旧少年_: 大佬厉害呀，期待回访

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Alonzo de blog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。