原始特征中包含大量噪声或冗余信息，如何通俗理解？

王摇摆

于 2023-09-27 09:57:47 发布

阅读量441

点赞数

分类专栏： Y2-S学术机器学习文章标签：人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44943389/article/details/133324573

版权

机器学习同时被 2 个专栏收录

112 篇文章

订阅专栏

102 篇文章

订阅专栏

当我们说原始特征中包含大量噪声或冗余信息时，我们指的是原始数据中存在一些对我们关心的任务并不具有实际意义或者会干扰我们对任务的理解和分析的信息。

让我们通过一个通俗的例子来理解：

假设你正在做一个关于学生成绩预测的任务。你收集了学生的一些信息，比如学习时长、上课出勤率、家庭背景等，这些信息就是特征。

现在，如果在这些特征中包含了一些并不与学生成绩直接相关的信息，比如学生的衣着打扮或者学校的午餐菜单等，那么这些信息就可以被视为是噪声或者冗余信息。

噪声：指的是那些对于我们关心的任务没有实际意义的随机或无规律的信息。比如，在学生成绩预测中，学生的衣着打扮可能并不会直接影响他们的成绩，所以这个信息可以被视为噪声。
冗余信息：指的是那些可以从其他特征中推导出的信息，它们提供了与其他特征相似的信息，并没有额外的贡献。比如，如果你已经有了学生的学习时长和学科成绩，再加上每周参加的补习课时长可能就是冗余信息，因为它提供了与学习时长相似的信息。

在数据处理过程中，我们通常会采取一些方法来识别并剔除这些噪声和冗余信息，以确保我们在建模和分析时关注的是真正与任务相关的信息，从而提高模型的性能和稳定性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王摇摆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。