2022年第十一届小美赛C题全保姆教程及完整代码

不知名数学家小P

已于 2023-01-06 18:38:47 修改

阅读量2.6k

点赞数 2

分类专栏：数学建模文章标签：人工智能

于 2022-12-02 15:22:20 首次发布

本文链接：https://blog.csdn.net/weixin_44099072/article/details/128148827

版权

数学建模专栏收录该内容

20 篇文章 18 订阅

订阅专栏

哈喽大家好，本次给大家提供的是小美赛C题完整的解题思路及代码，所有视频跟代码都为本人亲自编写，代码及视频都以加上原创标识，抄袭必究。请认准原创：不知名数学家小P.

本题的答疑以及助攻内容文档如下：

2022小美赛C题保姆级代码

视频思路已经发放

点击此处观看

C 题：人类活动分类

2、 问题与思路分析
1. 请设计一套特征和一个有效的算法，以便从这些磨损传感器的数据中分类19 种类型的人体行为。
对数据进行整理，合并，汇总成为X，Y，如下所示，是我出来汇总好的数据，我多增加了2个变量，其中people用于标识实验人员，Behavior用于标识人体行为。

2. 由于数据的高成本，我们需要使模型在有限的数据集下具有良好的泛化能力。我们需要具体地研究和评估这个问题。请设计一种可行的方法来评估您的模型的泛化能力。
泛化能力是模型对未知数据的预测能力。大白话来说就是，模型训好了，放到实际场景中去使用，会不会掉链子，还是能达到跟训练时一样的效果。泛化能力的本质就是反映模型有没有对客观世界做真实的刻画，还是发生了过拟合。一般评价模型的泛化能力有2种方式：
1.留出法。
对于训练集、测试集的划分，要尽可能保持数据分布的一致性，也就是保持原有的类别比例。一般使用8/2到7/3的样本用于训练，剩下的样本用于测试。
2.交叉验证法
交叉验证，顾名思义，要对数据集进行多次分割。与我们之前介绍过的一次性将数据集分成训练集和测试集想比较，交叉验证更为稳定。我们一般常用的是k折交叉验证。
在使用k折交叉验证时，我们将整个数据集分成k份，k通常取5或者10。
然后将第1份作为测试集，其他份作为训练集；接下来将第2份作为测试集，其他份作为训练集；不断重复以上步骤，直到每一份数据都作为过一次测试集。
这里我采用留出法

3. 请研究并克服过拟合问题，使您的分类算法能够广泛应用于人的动作分类问题。
过拟合：训练集表现效果很好，测试集表现效果很差
出现过拟合的原因：样本量不足、特征过少等
我们这里数据集有114w，因此样本量不缺，而且训练集和测试集的准确率都很好，所以我们可以用2个模型来对比解决，也就是我们先用一个垃圾一些的模型，例如逻辑回归、贝叶斯分类等，然后这时候发现模型准确率低，再用优秀的模型，例如XGBOOST、神经网络等，进而说明我们通过换更合适的模型解决了过拟合问题。