集成学习就像“组队打比赛”,流程可以这样理解:
-
准备“参赛选手”的数据:先拿到带标签的训练数据,比如一堆“水果图片+水果名称”的样本,这是让模型学习的基础。
-
选“小助手”模型:选简单的基础模型(如“单层决策树”)当“小助手”,每个小助手能力有限,单独用可能总犯错,但好训练、速度快。
-
让小助手“升级”:
- 第一轮:给所有数据一样的“关注度”,训练第一个小助手。训练完看它哪里分错了。
- 调整“关注度”:把分错的数据“关注度”提高(权重增加),就像告诉下一个小助手:“这些之前分错的,你重点看!”
- 重复训练:每轮都用调整后的关注度训练新小助手,同时给每个小助手算“话语权”——分错少的小助手,后面说话“分量”更重。
- 综合所有小助手意见:最后把所有小助手的判断按“话语权”加起来,比如小助手A说“是苹果”,权重高就多听它的;小助手B说“不是”,权重低就少听。通过“投票汇总”得出最终结果,让整体判断更准。