渤海畔-CSDN博客

原创深度学习第8周总结

虽然这个模型可能没有很准确地反映出后续词的语义，比如，“It is raining in San Francisco”（旧金山下雨了）和“It is raining in winter”（冬天下雨了）可能才是更完美的合理扩展，但该模型已经能够捕捉到跟在后面的是哪类单词。对于时间步之前的单词，如果我们想将其可能产生的影响合并到上，需要增加，然而模型参数的数量也会随之呈指数增长，因为词表需要存储个数字，因此与其将模型化，不如使用隐变量模型。在最坏的情况下，模型总是预测标签词元的概率为0。

2024-04-28 20:35:46 1226

原创神经网络与深度学习第7周学习总结

此外，他们还认为，在合理地复杂性前提下，特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。因此，在计算平均值和方差时，我们会收集所有空间位置的值，然后在给定通道内应用相同的均值和方差，以便在每个空间位置对值进行规范化。当我们训练时，中间层中的变量（例如，多层感知机中的仿射变换输出）可能具有更广的变化范围：不论是沿着从输入到输出的层，跨同一层中的单元，或是随着时间的推移，模型参数的随着训练更新变幻莫测。AlexNet的更高层建立在这些底层表示的基础上，以表示更大的特征，如眼睛、鼻子、草叶等等。

2024-04-17 18:56:24 1220

原创神经网络与深度学习第5周学习总结

在下一章中，我们将深入研究一些流行的、相对较新的卷积神经网络架构的完整实现，这些网络架构涵盖了现代从业者通常使用的大多数经典技术。因为这些网络特征元素的顺序是不变的，因此最优的结果是利用先验知识，即利用相近像素之间的相互关联性，从图像数据中学习得到有效的模型。此时，多层感知机可能是最好的选择，然而对于高维感知数据，这种缺少结构的网络可能会变得不实用。例如，在之前猫狗分类的例子中：假设我们有一个足够充分的照片数据集，数据集中是拥有标注的照片，每张照片具有百万级像素，这意味着网络的每次输入都有一百万个维度。

2024-04-08 16:45:27 251

原创神经网络与深度学习第4周学习总结

这也是训练比单纯的预测需要更多的内存（显存）的原因之一。梯度下降最简单的用法是计算损失函数（数据集中所有样本的损失均值）关于模型参数的导数（在这里也可以称为梯度）。，我们举一个实际的例子：我们希望根据房屋的面积（平方英尺）和房龄（年）来估算房屋价格（美元）。练数据的条目数(#training set)：一条训练数据是由一对输入数据和输出数据组成的，输入数据的维度𝑛 (特征的个数，#features)事实上，更难做到的是找到一组参数，这组参数能够在我们从未见过的数据上实现较低的损失，这一挑战被称为。

2024-03-30 20:16:47 1223

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 深度学习第8周总结

原创 神经网络与深度学习第7周学习总结

原创 神经网络与深度学习第5周学习总结

原创 神经网络与深度学习第4周学习总结

空空如也

空空如也

原创深度学习第8周总结

原创神经网络与深度学习第7周学习总结

原创神经网络与深度学习第5周学习总结

原创神经网络与深度学习第4周学习总结