目录
多头自注意力机制(Multi-head Self-attention)
非参注意力
给定一组数据(,
),i=1,2....n
最简单的方式给每一组数据添加一样权重大小的注意力
更好的注意力方案:Nadataya-Watson核回归
用每一个x的距离函数除以所有的距离函数和得到一个该x的比重(类似softmax)作为注意力大小
再将获取的n组不同的注意力乘上对应的y值,得到注意力加权结果。
K为计算x和之间的‘距离’的核函数,例如取高斯分布:
目录
多头自注意力机制(Multi-head Self-attention)
给定一组数据(,
),i=1,2....n
最简单的方式给每一组数据添加一样权重大小的注意力
更好的注意力方案:Nadataya-Watson核回归
用每一个x的距离函数除以所有的距离函数和得到一个该x的比重(类似softmax)作为注意力大小
再将获取的n组不同的注意力乘上对应的y值,得到注意力加权结果。
K为计算x和之间的‘距离’的核函数,例如取高斯分布: