多头:多个相同结构的线性变换层(方阵),要求分别线性变换 B站教学视频参考:https://www.bilibili.com/video/BV1eG4y1N7Jp/?p=17&spm_id_from=pageDriver&vd_source=f4c7dcac0ad5ae8189bd414a3b23020d 什么是多头注意力机制? 多头注意力机制结构图: 变换矩阵必须是方阵 多头注意力机制作用: 优化每个词汇的不同特征部分 实现词义更多元表达