这个里面q,k,v就像是attention的qkv。
他们的维度都是
然后,会判断L和S谁大谁小。
一般来说,应该是一样大的,所以应该不会进入这个里面。
下面,到了下面这一步,这个values有变回来了(1,24,512)
然后,这个V用了一个linear来进行映射一下,values就变成了,(1,24,128,8)
然后,会对V进行这些操作。
list,里面有这些东西,是learning的一些操作。
一开始,V的维度是(1,24,128,8)的尺寸。
然后,在这里,对value做了操作。具体的操作是里面的这个MWT_CZ这个操作,
大概的意思是,先把维度拓展了,然后又变了回来。通过linear变回来,通过linear变过去。