深度学习学习记录

爱编程的小伙子

已于 2024-09-22 21:39:33 修改

阅读量176

点赞数 2

文章标签：深度学习学习人工智能

于 2024-09-11 22:49:18 首次发布

本文链接：https://blog.csdn.net/weixin_44833903/article/details/142149080

版权

在这里插入图片描述
Dxdiag可以显示计算机上DirectX相关的文件，检查正在运行的文件、输入设备、以及视频驱动程序版本。还可以用来诊断和测试 DirectPlay、 DirectSound、 DirectMusic、 DirectDraw 和 Direct3D 的功能。
启动jupyter notebook就在anaconda的命令窗口中键入jupyter notebook就行，环境以及搭好了，注意这个notebook所在的路径是终端的目录，如果和d2l的目录不一样需要用cd跳转（或者这里最好cd 到 d2l-zh 所在目录下运行 notebook）

python中关于sum()函数中的参数axis=i的理解，若一个三维矩阵为（2，2，2），内容为[[[1,1],[2,2]],[[3,3],[4,4]]]，若axis=0，可以这么理解：axis=0为深度维，第0维，目光正视深度层并压下去，降一个维度，即从上往下看压扁成为二维矩阵。同理axis=1时，维长度维，第1维，从正面看去并压扁求和，也得到二维矩阵。同理axis=2则从宽度层第3维，正视侧面并压扁求和。若按axis求和过程中不想把该维度丢掉，则可以使用参数keepdims，True时则该维度保留为1。
在这里插入图片描述

TensorDataset描述如下

一文搞懂网络训练中一个epoch中到底做了什么+zero_grad可以放在backward后面吗(train.py)
https://blog.csdn.net/qq_43369406/article/details/129740629

在这里插入图片描述
对于多模态大模型而言，视觉问答能力（VQA）是其最基础且关键的能力之一

Visual Dialog视觉对话

Matterport3D是一个非常好的3D的RGB-D数据集，可以用在很多相关领域。Vision-and-Language Navigation问题使用的R2R数据集就是依托于matterport3D制作的。
在这里插入图片描述