李宏毅机器学习与深度学习2022、2023作业
文章平均质量分 77
Sowhat^^
一个fw
展开
-
HW13_NetworkCompression_理论部分
定义教师模型的网络结构# 定义学生模型的网络结构在知识蒸馏过程中,我们通常使用一个组合的损失函数,包括传统的交叉熵损失和 KL 散度损失。不同的超参数可以T和alpha可以得到不同的结果,具体超参数的选取要根据实际情况"""计算知识蒸馏的损失函数。:param student_logits: 学生模型的输出:param teacher_logits: 教师模型的输出:param labels: 真实标签:param T: 温度参数:param alpha: 权重参数。原创 2024-05-29 17:24:12 · 316 阅读 · 0 评论 -
HW13_NetworkCompression_pyotrch部分
是为了确保在使用 CuDNN 后端时,所有操作都使用确定性的算法,从而使得模型在相同输入下每次运行的结果都相同。这对于需要结果一致性的场景非常重要,但可能会带来一些性能上的损失。是为了避免 CuDNN 在每次输入大小变化时都进行基准测试,适用于输入大小不定的场景。结合可以确保结果的确定性和可重复性。原创 2024-05-29 17:22:43 · 699 阅读 · 0 评论 -
HW4_SelfAttention_python部分
这段代码通过配置tqdm进度条库,为一个循环过程创建了一个进度条对象,方便在终端中直观地显示和监控进度。方法在tqdm进度条中起到更新进度条当前进度的作用。通过在循环或迭代过程中调用它,进度条可以动态地反映当前处理进度,结合其他方法如,可以提供详细的实时状态信息,从而帮助用户更好地监控和管理长时间运行的任务。原创 2024-05-26 21:21:07 · 269 阅读 · 0 评论 -
HW4_SelfAttention_pytorch部分
提供了一种灵活且强大的方式来调整学习率,通过自定义的lambda函数,可以实现各种复杂的学习率调度策略,从而更好地控制模型的训练过程。是 PyTorch 中获取模型参数的标准方式。它返回一个字典,包含了模型中所有可学习参数(权重和偏置)。通过保存和加载状态字典,可以方便地持久化模型的状态,进行模型的检查和调试,并在不同的训练和推理环境中恢复模型。原创 2024-05-26 21:19:04 · 759 阅读 · 1 评论