1. Attention使用注意力机制的seq2seq 2. Attention使用注意力机制的seq2seq 代码实现 3. Q&A attention在搜索的时候,是在当前句子搜索。 一般都是在decoder加入注意力机制?不一定的,BERT就是在encoder中加入attention。 图像attention,就是从图片抽取patch,也就一小块一小块,作为attention。 参考 https://www.bilibili.com/video/BV1v44y1C7Tg?p=1