深度学习
文章平均质量分 94
vcoy
这个作者很懒,什么都没留下…
展开
-
transformer源码
传统transformer将图像作为一个个的patch,每个patch作为序列的一小部分,传统的尽可能将patch分的细一点,但此时需要构建更长的序列,则token就越多。但是计算还按照四个窗口计算,即4还当做其中一个,然后5和3当做一块,1和7当做一块,0、2、6、8四个当做一块,等于还是四块。第一次是64个窗口,第二次就变为16个窗口,第三次变为4个窗口,第四次变为1个窗口,选择7是因为7算的开。7=49个点,每个点输入为96维向量,此时的96维向量还表示了与窗口内其他token点的关系。原创 2023-09-02 16:35:39 · 447 阅读 · 0 评论 -
pytorch 笔记
pytorch笔记原创 2023-04-10 10:08:57 · 788 阅读 · 0 评论