Datawhale AI 夏令营笔记
文章平均质量分 87
飒飒飒2333
这个作者很懒,什么都没留下…
展开
-
Datawhale X 李宏毅苹果书 AI夏令营task03
模型的选择和优化之间需要权衡,过小的模型可能因容量不足而欠拟合,过大的模型则可能过拟合。反之,则可能是模型容量不足。当模型过于简单时,它可能无法捕捉到数据中的复杂关系,导致模型集合(由不同参数θ定义的函数集合)过小,无法包含能够显著降低损失函数的理想函数。不匹配跟过拟合其实不同,一般的过拟合可以用搜集更多的数据来克服,但是不匹配是指训练集跟测试集的分布不同,训练集再增加其实也没有帮助了。训练数据不足:如果训练数据很少,模型容易过分依赖这些数据点,导致在训练集上表现良好,但在新的数据上泛化能力差。原创 2024-09-02 21:17:53 · 805 阅读 · 0 评论 -
Datawhale X 李宏毅苹果书 AI夏令营task02
线性模型是通过线性组合输入特征来预测输出的一种模型。其基本形式为:y = b + wx其中,y 是预测值,b 是偏置(intercept),w 是权重(weight),x 是输入特征。原创 2024-08-31 15:20:03 · 920 阅读 · 0 评论 -
Datawhale X 李宏毅苹果书 AI夏令营task01
机器学习(Machine Learning,ML)是让机器具备学习能力的技术,具体来说,就是让机器能够找到一个函数。通过找到这个函数,机器可以完成许多任务,例如语音识别和图像识别。深度学习(Deep Learning,DL)是机器学习的一个子领域,通常涉及更复杂的模型和算法。原创 2024-08-27 16:53:24 · 937 阅读 · 0 评论 -
Datawhale AI 夏令营task03笔记
本次Task在之前的基础上使用优化方案来尝试实现最佳的预测性能。原创 2024-07-20 22:02:21 · 595 阅读 · 0 评论 -
Datawhale AI 夏令营task02笔记
相比基于经验模型的baseline,机器学习模型lightgbm可以达到更好的预测效果。通过特征工程挖掘特征可以很快的提升模型预测效果,这是数据挖掘比赛中的主要优化方向。原创 2024-07-16 11:40:17 · 571 阅读 · 0 评论 -
Datawhale AI 夏令营task01笔记
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。时间序列数据是指将某一统计指标的数值按其发生的时间先后顺序排列而成的数列。这种数据在自然、经济、社会等领域中广泛存在,如生态系统中动植物种群数量的变化、金融市场的股价波动、宏观经济指标等。原创 2024-07-16 09:40:33 · 280 阅读 · 0 评论