注意力机制:让模型按相关性动态加权输入信息的机制,是 Transformer 和许多序列/多模态模型的核心组件。