回归（regression）-CSDN博客

本文链接：https://blog.csdn.net/weixu22/article/details/118705480

回归分析起源于高尔顿的研究，用于数值预测和实证分析。本文聚焦预测模型的构建，介绍基于机器学习的线性回归，通过损失函数（如均方误差）评估模型，并使用梯度下降进行参数优化。讨论了模型泛化、欠拟合和过拟合问题，以及防止过拟合的正则化技术。并以Pokemon精灵攻击力预测为例，展示了回归模型的构建过程。

摘要由CSDN通过智能技术生成

1. 回归（regression）

1.1 起源与定义

回归最早是被高尔顿提出的。他通过研究发现：如果父母都比较高一些，那么生出的子女身高会低于父母的平均身高；反之，如果父母双亲都比较矮一些，那么生出的子女身高要高于父母平均身高。他认为，自然界有一种约束力，使得身高的分布不会向高矮两个极端发展，而是趋于回到中心，所以称为回归。
目前，从用法角度将其定义为一种数值（scalar）预测的技术，区别于分类（类别预测技术）。

1.2 不同的用法

1.2.1 解释（Explanation）

回归可用于做实证研究，研究自变量和因变量之间的内在联系和规律，常见于社会科学研究中。

互联网的普及降低了教育不平等程度吗？
大学生就业选择的影响因素有哪些？
医疗电子商务场景下客户满意度的影响因素有哪些？

1.2.2 预测（Prediction）

回归也可用来做预测，根据已知的信息去准确预测未知的事情。

股市预测：根据过去10年股票的变动、新闻咨询、公司并购咨询等，预测股市明天的平均值。
商品推荐：根据用户过去的购买记录和候选的商品信息，预测用户购买某个商品的可能性。
自动驾驶：根据汽车的各个sensor的数据，例如路况和车距等，预测正确的方向盘角度。

1.3 模型的构建

无论目的是解释还是预测，都需要掌握与任务相关的规律（认识世界），即建立合理的模型。
不同的一点是，解释模型只需要基于训练集构建，一般具备解析解（计量经济模型）。预测模型必须在测试集上做检验和调整，一般不具备解析解，需要通过机器学习的方法去调整参数。因此，同样的模型框架和数据集，最优的解释模型和预测模型很可能是不相同的。
本文主要关注预测模型的构建，不涉及解释模型相关的内容。