赣州做建材的网站哈尔滨网建公司有哪些-彰化县网站建设公司-Seo优化

赣州做建材的网站,哈尔滨网建公司有哪些,怎么从建设部网站下载规范,岳阳建设网站制作“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题#xff1a;为不同任务微调的模型数量激增#xff0c;维护成本与日俱增。我们如何将这些“专才”模型#xff0c;高效地整合成一个强大的“多面手”#xff1f;模型融合为此提供了一条路径。模型融合无需昂贵的多…“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题为不同任务微调的模型数量激增维护成本与日俱增。我们如何将这些“专才”模型高效地整合成一个强大的“多面手”模型融合为此提供了一条路径。模型融合无需昂贵的多任务联合训练而是直接利用各任务的微调模型通过轻量级的参数操作将它们的能力“合并”成一个统一模型。早期经典模型融合方法是 Task Arithmetic。它提出了“任务向量”的核心概念即微调模型与预训练模型的参数差向量。将这些方向线性叠加就能将多项能力融入同一个模型。然而Task Arithmetic 只在任务差异不大的时候能取得较好效果。当任务差异巨大时不同的任务向量可能会互相冲突和抵消导致融合后的模型性能不升反降。这便是模型融合领域的核心挑战知识冲突。本文精选三篇破解这一瓶颈的前沿工作为读者在茫茫文献中提供一些方向。这些研究来自北京交通大学和南洋理工大学的研究者们构成了一条清晰的技术演进脉络TATR识别并筛选冲突维度避免“对立方向”进入融合参数中CAT Merging在更高维的参数空间中定位冲突的子空间通过投影消除干扰LOT Merging在识别出的冲突空间内按奇异值向量的重要性对融合权重进行动态调整达到自适应的效果。实验证明这三种基于“冲突感知”的融合方法均能有效缓解知识冲突问题让模型融合在复杂多任务场景下表现得更加稳健、强大且可靠。研究背景在模型融合领域Task Arithmetic 是最早被广泛关注的方法。它的核心思路很直观给定一个预训练模型以及在个任务上分别微调得到的模型Task Arithmetic 将每个任务的微调过程视为一个“任务向量”通过将任务向量累加回预训练模型得到一个具备多任务能力的融合模型这里是手工选择的缩放超参数。▲ 图表1 任务向量的方向a或尺度b不一致时可能会导致知识冲突不过在更贴近真实应用的复杂场景里Task Arithmetic 往往表现不够稳定。关键原因在于不同任务的任务向量并不总是“相容”的。如图 1a当两个任务的参数更新方向几乎相反时简单相加会得到一个“折中方向”。这个方向既不够像任务 A也不够像任务 B结果是两边的有效信息都被削弱。如图 1b如果任务 A 的向量幅度明显大于任务 B那么融合后的更新会被“强任务”主导小尺度任务的知识更容易被掩盖导致性能下降。这类现象统称为知识冲突Knowledge Conflict。如果用任务自身的损失函数来衡量知识冲突可以写成也就是融合模型在任务上相比该任务的专门微调模型损失变差了多少。接下来将介绍的三项近期工作基本构成了一条很清晰的技术演化路线从早期的维度级筛选到更高维的空间投影/对齐再到进一步的智能化自适应。它们的共同点是用更细的控制手段来管理任务间的信息叠加从而减少冲突、提升融合效率。方法1TATR —— 在“可信维度”内进行融合论文标题Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts论文链接https://dl.acm.org/doi/10.1145/3746027.3755789项目代码https://github.com/SunWenJu123/model-merging收录会议ACM MM 2025在传统 Task Arithmetic 默认“每个参数维度的更新都对融合有帮助”。相比之下TATR 则先识别哪些维度可能产生冲突再有选择地进行融合。作者从任务间相互影响出发定义“任务对任务的冲突程度”为两者的差别在于第二个模型融合时不包含任务的向量。因此因此这个差值可以直接理解为加入任务后任务的损失是变好了还是变差了。将 Task Arithmetic 的融合公式代入并在附近做一阶泰勒近似作者得出结论也就是说任务是否会干扰任务取决于它们的向量在梯度方向上的对齐程度。哪些维度适合融合作者任务向量在每个维度上按与梯度的关系分成三类正交分量点积 ≈ 0两者几乎独立通常不引发冲突正分量点积 0与任务的梯度同向负分量点积 0与任务的梯度反向▲ 图表2 正交分量几乎没有知识冲突而正分量和负分量则引发较多知识冲突。然而图 2 的实验分析表明正交分量几乎不产生知识冲突而而正/负分量都贡献了更多冲突。这有点反直觉很多人会以为“同向的正分量对融合更好”。但把两个同方向的向量相加之后它们可能就直接越过了局部最优导致性能下降。真正安全的融合的往往是那些低耦合、互不干扰的维度也就是更接近正交的部分。作者基于上述分析在维度空间定义“可信域”筛选出最适合参与融合的维度其中表示模型参数的某个维度是阈值。若某维度在不同任务中发生强对立或强耦合则会被排除在之外。把可信域写成掩码融合公式可写为方法2CAT Merging —— 识别“冲突空间”将任务向量投影到更安全的空间论文标题CAT Merging: A training-free approach for resolving conflicts in model merging论文链接https://arxiv.org/abs/2505.06977项目代码https://github.com/SunWenJu123/model-merging收录会议ICML 2025TATR 已经能够在维度层面识别冲突但当任务向量包含更复杂的结构如矩阵参数时维度级的方法显得有些粗糙。因为矩阵参数中蕴含着更复杂的空间结构可能存在的是子空间之间的冲突而不仅是单一维度之间的冲突。为此作者进一步提出了 CAT Merging 方法。该方法通过识别任务间的冲突子空间将任务向量投影到不会互相干扰的区域从而避免知识冲突。在 CAT Merging 中研究者从线性模型的角度出发其中表示任务的输入特征。目标是找到组冲突方向基底然后将其他任务的任务向量投影到这些基底的补空间来减少干扰这里是任务在任务的冲突空间中的分量减去这部分后相当于把任务的任务向量“移开”了可能引发冲突的区域。为了让基底既能反映冲突又不会损失有用知识作者设计了如下优化目标这个目标函数包含两部分1. 最小化干扰第一项尽可能减少任务对任务的干扰即投影后的损失2. 保持知识第二项确保投影操作不会导致任务的知识损失。展开后优化目标简化如下等价为最大化问题这一步通过求解特征值问题来找到最能捕获冲突的方向。具体来说通过构造如下矩阵其最大特征值对应的特征向量即为最能捕获冲突的方向。通过选择多个最大特征值对应的特征向量构建可构成冲突空间基底。在识别各任务的冲突空间之后CAT Merging 的融合公式为方法3LOT Merging —— 不是简单粗暴的把冲突一删了之而是根据重要性进行加权融合论文标题Towards minimizing feature drift in model merging: Layer-wise task vector fusion for adaptive knowledge integration论文链接https://arxiv.org/pdf/2505.23859?项目代码https://github.com/SunWenJu123/model-merging收录会议NeurIPS 2025CAT Merging 的策略很明确先定位冲突子空间再把冲突分量投影出去相当于直接舍弃。这在不少场景里确实有效但也有一个绕不开的问题——被投影操作舍弃的部分里也可能含有某些任务的关键信息。换句话说存在冲突的分量不一定全是坏的它也可能是“有代价但必要”的知识。LOT Merging 的思路更温和。它不再一刀切删除冲突分量而是根据冲突强度与任务的信号强度做自适应加权。它试图在“少冲突”和“少丢信息”之间取得更好的平衡。同样从线性模型出发其中表示任务的输入特征。目标是找到一个最优融合向量让融合模型能尽可能接近每个任务的微调结果代入线性模型即可得到更简洁的形式这是一个标准的凸二次优化问题因此有闭式解这意味着是对所有任务向量的“最优加权平均”权重来自各任务在其特征空间中的重要性由控制。最终LOT Merging 融合将这种加权能缓解冲突。同一方向上如果任务之间冲突大它们在最终解里的权重会被自动压低冲突小的方向则会被保留更多。为了直观理解作者从两个极端情况进行理论分析最优状况下任务特征空间是完全独立的无冲突。对每个任务做 SVD。若任务之间的特征子空间互不重叠即则这时每个任务的向量会被“放回”自己的独立子空间中互不干扰并且可以达到 0 冲突最差状况下所有任务特征空间完全重叠强冲突。若所有任务的特征方向一致解析解呈现为加权融合此时所有任务都挤在同一个“冲突空间”里并且 LOT Merging 在奇异值方向按“特征强度”自适应加权某任务在该空间中越重要大则在最终融合向量中占的比重越高某任务的重要性较弱则自动降低其影响避免干扰主任务。这是体现了 LOT Merging 的核心在冲突空间里做软性融合而不是硬性删除。实验结果在视觉与多模态的多任务融合实验中研究者对 8-task 与 6-task 的多种模型进行了系统验证模型结构包括 ViT-B/32、ViT-L/14 与 BLIP。结果显示本文所介绍的三种方法均有效缓解知识冲突并显著提升了多任务融合性能。在融合 ViT-B/32 的实验中LOT Merging 的平均准确率达到 82.7%超出 Task Arithmetic 13.6%。这意味着 LOT Merging不仅具备最强的冲突处理能力也最大程度保留了各任务中的关键知识。在更大规模的 ViT-L/14 上LOT Merging 仍然展现出稳健优势。其平均准确率达到 90.5%较 Task Arithmetic 提升 6%。更大的模型意味着任务空间更复杂但 LOT Merging 在此条件下依旧保持领先显示出优异的泛化与稳健性。在融合 BLIP 模型的实验中LOT Merging 在 5 个任务上取得最佳性能而 CAT Merging 在 2 个任务上获得最优结果。这说明 LOT Merging 对大多数任务更为稳健而 CAT Merging 在特定任务上的投影策略亦具有独特优势。整体而言这三种方法共同构筑了更高效、更稳定的融合路径大幅缓解了此前模型融合中困扰已久的知识冲突问题。总结与展望本文介绍的 TATR、CAT Merging 与 LOT Merging从不同层面解决了知识冲突问题TATR从维度层面剔除冲突维度CAT Merging从子空间层面利用投影操作剔除冲突方向LOT Merging用软性加权融合取代硬性删除它们共同让模型融合从以往的“粗放式叠加”进化为更精细的协同融合显著提升多任务性能与稳健性。随着多任务大模型的广泛应用未来的模型融合将不再局限于对同质任务进行整合而会采取更加动态和灵活的机制能够根据任务的不同结构、特征分布以及具体的应用场景进行自适应的融合。这种未来的融合机制将具有更强的适应性和可扩展性能够应对更加复杂和多样化的多任务学习场景。本文提出的三种方法为这种未来奠定了基础为智能系统的高效协作、知识整合与能力拓展提供了全新的视角和可能性。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

赣州做建材的网站哈尔滨网建公司有哪些

惠州网站设计定制微信网站开发

云开发网站怎样才能把网站宣传做的更好

电子书网站跟我学做家常菜800代理游戏怎么代理

贵州公司网站建设网站优化外包找谁

手机ppt在哪个网站做服务器添加网站

seo优化技术排名泰安网站seo推广

赣州做建材的网站哈尔滨网建公司有哪些

惠州网站设计定制微信网站开发

云开发网站怎样才能把网站宣传做的更好

电子书网站 跟我学做家常菜800代理游戏怎么代理

贵州公司网站建设网站优化外包找谁

手机ppt在哪个网站做服务器添加网站

seo优化技术排名泰安网站seo推广

电子书网站跟我学做家常菜800代理游戏怎么代理