【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?-编程知识

【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?

news/2025/4/2 15:16:26/文章来源:https://www.cnblogs.com/fasterai/p/18555475

【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?

重要性：★★★ 💯

这是我常用的一个面试题。看似简单的基础常识题，但在面试中能准确回答的不足10% 。

常识题的错误反而会让人印象深刻，反而会暴露面试者对算法模型理解不够深入。

此题的关键主要是考察面试者对软性注意力的理解程度，类似的思想在很多场景都有应用，如门控机制、模型量化等。

Transformer原文中使用了 8 个“scaled dot-product attention”，在同一“multi-head attention”层中，输入均为“KQV”，同时进行注意力的计算，彼此之前参数不共享，最终将结果拼接起来，这样可以允许模型在不同的表示子空间里学习到相关的信息。简而言之，就是希望每个注意力头，只关注最终输出序列中一个子空间，互相独立。

其核心思想在于，多头注意力相比单头注意力是更软的注意力机制，对每个词蕴含的不同语义维度给予不同的权重。

实例：以 All is well 这句话为例，假设我们需要计算 well 的自注意力值。以此为实例来理解多头注意力层的作用。

在计算相似度分数后，我们得到单词 well 的自注意力值：