做网站虚拟主机规格网站开发中的文档-彰化县网站建设公司-Seo优化

做网站虚拟主机规格,网站开发中的文档,wordpress 底部友情链接,长春网站seo公司点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入#xff01;作者简介闻其帅#xff0c;北京邮电大学硕士生内容简介注意力机制已在众多领域取得了显著的经验性成效#xff0c;但其背后的优化目标仍不明确。此外#xff0c;自注意力机制的二次复杂度也逐渐成为应用瓶颈。尽…点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入作者简介闻其帅北京邮电大学硕士生内容简介注意力机制已在众多领域取得了显著的经验性成效但其背后的优化目标仍不明确。此外自注意力机制的二次复杂度也逐渐成为应用瓶颈。尽管可解释性与高效性本是两个相互促进的目标但以往的研究通常割裂地探索两者。本文作者提出了一个统一优化目标并通过算法展开推导出一种本质可解释且高效的注意力机制。具体来说作者将所提出的优化目标的梯度下降优化过程构建为收缩-广播自注意力Contract-and-Broadcast Self-Attention, CBSA算子的前向计算过程。通过收缩少量的代表性 token该机制实现了对输入 token 向低维结构的高效压缩。该机制不仅能通过固定代表性 token 的数量取得线性复杂度还能通过改变代表性 token 的数量和结构推广出其他注意力机制。通过大量实验作者证明了该机制在视觉任务上相比于黑盒注意力机制有着可比的性能和额外的优势。本文为可解释性与高效性的融合以及探索注意力机制的统一形式提供了新的思路。论文地址https://arxiv.org/pdf/2509.16875代码链接https://github.com/QishuaiWen/CBSA论文解读本文的题目是“通向可解释高效注意力机制以收缩局部来压缩全局”。此处提及的“可解释”是指基于确切的优化目标推导并设计注意力机制而“压缩”则是将非结构化的表征分布向低维语义结构转化。在介绍本文的核心方法前首先简要回顾高效性和可解释性的发展历程。一方面在高效注意力领域各类高效机制不断涌现但设计思路始终围绕早期形成的几个方向展开。工程上可以混合使用这些机制或尝试构建统一的计算形式。另一方面关于可解释性随着注意力机制的应用深化很多难以解释的现象开始显现而当前针对这些现象的解释却缺乏一个统一的框架。事实上存在一类先验可解释方法将注意力机制的本质归结为特定的优化目标如能量最小化和去噪等。通过验证这些优化目标的优化过程与注意力机制的计算过程的对应性可以实现对注意力机制的先验解释。然而现有先验解释仍停留在解释层面却未能发挥实际的指导作用。比如在解释了注意力机制后如何进一步简化它或进一步解释现有的高效注意力机制本应顺理成章。但目前可解释性与高效性的协同研究仍十分匮乏。对高效机制的探索依旧由经验和实验驱动更难以对应用中观察到的各类现象进行系统解释。因此本研究旨在以可解释的方式推导新型高效注意力并为理解现有的各种高效注意力机制提供新的视角。本研究采用了“压缩即智能”的第一性原理并通过“最大化码率约减”MCR²这一优化目标将该追求具体化。下面将简要介绍该优化目标。首先通过编码率coding rate及其约减情况来刻画表征分布的压缩情况。直观来看编码率计算了表征分布可被多少个半径为 ε 的小球覆盖。整个最大化码率约减目标包含三项内容扩张项压缩项和稀疏项。其中稀疏项作为常见的正则项有利于促进神经元的后验可解释性。压缩项将输入表征向一组低维子空间压缩上图中的合成数据集实验展示了文中推导出的一个算子在三维空间中将不同类别的输入 token 分别压缩到不同一维子空间。至于扩张项的作用是拉开子空间间的距离避免子空间重叠导致不可分或相互干扰。马毅老师团队提出的“白盒”Transformer发现该目标的压缩项的一步梯度下降过程可被近似地写成 Softmax Attention 的形式。二者的核心区别在于标准注意力机制中的Wvalue、WK、Wquery三个投影矩阵在该框架下统一为单一投影矩阵UK——即表征需向UK张成的低维子空间压缩。由此形成“多头子空间自注意力MSSA”尽管其效率略高于标准注意力机制但仍保持平方复杂度。基于此本研究期望从最大化码率约减目标出发实现优化过程的高效化进而推导得到高效的注意力机制。核心思路如下在输入 tokenZ之外引入一组数量更少的代表性 token记为Q通过 Q 代理原本输入 token Z 的压缩过程将对 N 个输入 token 的压缩转化为对 M 个代表性 token 的压缩其中 M 远小于 N 。在有限维空间中压缩模式可通过少量代表性 token 实现等价替代或近似。引入的代表性 token Q绿色标记独立于输入 token红色标记其收缩过程可更高效地计算。随后通过 Q 与原始 token 之间的线性关系图中虚线所示将 Q 的收缩量传递至每个原始 token最终实现“以局部收缩压缩全局compressing all by contracting a few”。对新压缩项执行一步梯度下降后其计算过程的梯度部分可拆分为两项理解第一项为收缩项这里假设代表性 token 选取主成分分析中的主方向彼此正交且捕获不同大小的投影方差其计算特点为方差小的投影方向会产生较大的收缩量红色箭头所示导致该方向被抹除方差大的投影方向收缩量较小得以保留第二项为广播项本质是原始 token Z 与代表性 token Q 之间的线性关系表达矩阵维度为m×N能够将收缩项计算得到的 d×m 维收缩量传递至所有原始 token。基于这两项核心设计该注意力机制被命名为“收缩-广播自注意力Contract-and-Broadcast Self-Attention, CBSA”。接下来将详细说明代表性 token Q 及其与原始 token 的关系矩阵 A 的计算方式首先通过对输入 token 进行池化操作将样本维度从 N 降至 m完成代表性 token 的初始化也可通过可学习参数实现初始化初始化后利用 Q 对原始输入 Z 进行查询构建交叉注意力实现代表性 token 的抽取——该交叉注意力过程中的注意力矩阵可直接作为线性系数矩阵 A 。原始收缩项包含求逆操作为降低计算开销通过矩阵级数的冯·诺依曼展开将逆矩阵近似为 Gram 矩阵结合工程应用需求在 Gram 矩阵外引入 Softmax 函数最终转化为自注意力操作即通过自注意力实现收缩过程。下面右图展示了不同序列长度下该机制相较于现有可解释注意力机制的效率提升其复杂度已降至线性水平。值得注意的是若移除收缩步骤CBSA 将退化为 Agent Attention 。实验表明这种简化在多数情况下可提升性能但收缩步骤在理论层面尤其是对不同注意力机制的统一具有关键意义通过调整代表性 token 的数量与结构可推导出多种现有注意力机制。例如令输入 token 自身作为代表性 token 可推导出 Softmax Attention令输入 token 完备且正交如前文提及的主方向可得到线性注意力令正交的代表性 token 与输入无关固定不变则线性注意力退化为通道注意力。由此可见各类注意力机制的本质差异源于代表性 token 的数量与结构不同所导致的压缩模式差异。具体来看不同注意力机制的压缩模式通道注意力沿固定坐标轴进行压缩例如将黄色椭圆形分布的输入 token 压缩至固定坐标轴线性注意力可实现数据自适应压缩如沿主成分方向压缩这种动态特性对上下文学习及缓解叠加效应superposition至关重要Softmax Attention 对每个 token 单独计算压缩量具备更强的灵活性。而本文提出的 CBSA 旨在以更低的计算成本近似 Softmax Attention 的压缩模式。最后简要介绍实验结果主要体现可解释性带来的三大优势其一全局压缩由局部压缩驱动。对比输入 token 与代表性 token 经注意力机制处理后的编码率减少量二者变化趋势基本一致证实全局压缩确实由局部压缩带动。且代表性 token 的编码率减少量显著更大这一现象可解释为“杠杆效应”——以大的局部改变量撬动全局的微妙优化。其二在简单有监督训练下涌现分割特性该现象的内在机制仍需进一步研究。其三对参数扰动具备强鲁棒性。由于注意力机制中的投影矩阵UK本质是子空间基底对其施加随机噪声扰动不会显著改变张成的子空间因此对最终性能影响极小。实验显示当噪声方差为1时其他方法的性能已降至接近零而本文方法仍保持50%的准确率。在图像分类与语义分割任务中的实验结果如下图像分类任务ImageNet-1K中本文提出的 CBT-Ssmall模型仅使用30%的参数量与40%的计算量便实现了与 ViT-S 相当的分类准确率。为验证缩放效果将 ImageNet-21K 预训练模型的注意力机制forward函数替换为 CBSA 后进行微调结果显示 CBSA 与线性注意力效果接近若效仿 Agent Attention 移除收缩步骤性能将显著超越线性注意力。语义分割任务 ADE20K数据集中以预训练 ViT 为基础模型本文方法的性能优于基于 Softmax Attention 的其他模型。未来展望未来的研究方向或将脱离混合注意力机制转向数学层面可统一的高效注意力机制。本期文章由支昕整理往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文查看作者直播回放

做网站虚拟主机规格网站开发中的文档

倒计时网站模板夏县网站建设

网站备案主体修改网站开发主流框架

外贸营销网站建设介绍靖江网站建设制作

微信网站留言板如何制作中国常州网官网

12306网站是是阿里巴巴做的吗现在外贸做那个网站好

nas搭建网站wordpress缩写是什么