携程网站 建设平台分析网站建设邀标比选

张小明 2026/1/19 19:15:37
携程网站 建设平台分析,网站建设邀标比选,安徽省建设厅官网查询,效能建设网站2025年的最后一天#xff0c;DeepSeek又发论文了。过去一年#xff0c;很多人都在问同一个问题#xff1a;DeepSeek为什么能用更少的钱#xff0c;做出更强的模型#xff1f;答案当然不止一个。但这篇论文透露了其中一个思路#xff1a;去优化那些所有人都觉得已经…2025年的最后一天DeepSeek又发论文了。过去一年很多人都在问同一个问题DeepSeek为什么能用更少的钱做出更强的模型答案当然不止一个。但这篇论文透露了其中一个思路去优化那些所有人都觉得已经是最优解的东西。这次他们动的是残差连接——一个深度学习领域用了十年、几乎没人质疑过的基础设计。论文名字有点硬核mHCManifold-Constrained Hyper-Connections翻译过来就是流形约束的超连接。但核心思想其实不复杂今天试着用人话讲清楚。先说背景残差连接统治了深度学习十年经常训练大模型的朋友一定听过残差连接Residual Connection这个词。2015年何恺明团队提出ResNet核心创新就是这个残差连接。简单说就是每一层的输出 这一层学到的东西 上一层的输入。用公式表示x_{l1} x_l F(x_l)这个设计看起来简单但解决了一个大问题网络太深就训不动。为什么因为梯度消失。信号在几十上百层网络里传递越传越弱最后弱到模型根本学不到东西。残差连接的妙处在于它给信号开了一条快车道。不管中间那些层学到了什么原始信号都能直接传到后面。这就是所谓的恒等映射Identity Mapping——浅层的信息可以原封不动地传到深层。从2015年到现在不管是GPT、LLaMA还是Gemini几乎所有大模型都在用这个设计。十年了没人动过它。DeepSeek的第一次尝试Hyper-Connections2024年9月DeepSeek发了一篇论文提出了Hyper-ConnectionsHC第一次对残差连接动刀。核心思想是既然残差连接的权重是固定的1:1为什么不让模型自己学习最优的连接方式HC做了两件事把残差流从1条扩展到n条通常n4引入可学习的连接矩阵让模型自己决定怎么混合这些信号效果确实好。论文数据显示训练收敛速度提升1.8倍ARC-Challenge任务提升6个百分点这个提升挺猛的。但HC有一个致命缺陷——训练不稳定。HC的问题信号放大了3000倍这是论文里最直观的一张图。看左边那条蓝线HC在第12000步左右损失突然飙升。这对大规模训练来说是致命的——你可能已经烧了几百万的算力结果模型突然崩了。为什么会这样论文里有详细分析。核心原因是HC破坏了恒等映射的特性。还记得残差连接的公式吗x_{l1} x_l F(x_l)。这里的x_l是1倍传递到下一层的。但HC引入了可学习的权重矩阵H信号传递变成了x_{l1} H * x_l ...问题来了H是可学习的没有任何约束。当网络有60层时信号要经过60个H矩阵的连乘。如果每个H的放大倍数稍微大于1连乘60次会发生什么指数爆炸。论文测量了这个放大倍数Amax Gain Magnitude。理想情况下应该是1信号不放大也不缩小。但HC在27B模型上的实测结果是——峰值达到3000。信号被放大了3000倍梯度也被放大了3000倍。难怪训练会崩。mHC的解法双随机矩阵现在问题清楚了H矩阵太自由了没有约束所以会乱来。那怎么约束它最简单的方法是让H I单位矩阵这样就退化回原始的残差连接了。但这样就失去了HC的性能优势。DeepSeek的解法很优雅把H约束在双随机矩阵上。什么是双随机矩阵简单说就是满足两个条件的矩阵所有元素都 ≥ 0每行之和 1每列之和 1举个例子这是一个2×2的双随机矩阵[0.3, 0.7] [0.7, 0.3]每行加起来是1每列加起来也是1。为什么这个约束有效因为双随机矩阵做的事情本质上是加权平均。当你用双随机矩阵乘以一个向量时结果向量的每个元素都是输入向量的凸组合加权平均。加权平均有一个天然的性质结果不会超出输入的范围。这就从数学上保证了信号不会爆炸。更妙的是双随机矩阵还有一个封闭性两个双随机矩阵相乘结果还是双随机矩阵。这意味着不管网络有多深60层、100层、1000层信号经过多少个H矩阵的连乘结果仍然是一个双随机矩阵仍然满足不会爆炸的性质。论文用了一个算法叫Sinkhorn-Knopp来做这个投影。具体细节不展开了核心就是迭代地调整矩阵的行和列让它们都归一化到和为1。效果稳定性提升三个数量级mHC的效果怎么样先看稳定性。同样是27B模型同样的训练配置指标HCmHCAmax Gain峰值30001.6从3000降到1.6降低了三个数量级。说实话看到这个数字的时候我愣了一下——这个改进幅度有点离谱。训练曲线也变得平滑了再也没有那个可怕的损失飙升。再看性能。mHC不仅比原始的残差连接强甚至比不稳定的HC还要强BenchmarkBaselineHCmHCBBH43.848.951.0DROP47.051.653.9GSM8K46.753.253.8MMLU59.063.063.4mHC在大多数任务上都比HC更好特别是推理任务BBH 2.1%DROP 2.3%。稳定性提升了性能也提升了。那代价呢只增加了6.7%的训练时间。这个数字挺关键的。HC虽然不增加FLOPs浮点运算量但因为扩展了残差流宽度内存访问成本大幅增加。DeepSeek在论文里花了大量篇幅讲基础设施优化——内核融合、选择性重计算、通信重叠——才把开销控制在这个水平。为什么这个方法优雅读完这篇论文我觉得mHC的设计挺漂亮的主要体现在三个地方1. 问题定义精准很多研究会笼统地说训练不稳定但DeepSeek精确地定位到了问题根源恒等映射特性的丧失导致信号在多层传播时爆炸。有了这个精准定义解决方案才能有的放矢。2. 解决方案有数学保证双随机矩阵不是拍脑袋想出来的而是有严格的数学性质支撑谱范数 ≤ 1不会放大信号组合封闭性多层仍然稳定Birkhoff多面体的几何解释是所有置换矩阵的凸组合这种有数学保证的方法比试了一百种trick发现这个work要可靠得多。3. 工程和理论并重很多论文只讲理论创新对工程实现一笔带过。但DeepSeek的论文花了相当篇幅讲基础设施优化怎么融合内核、怎么减少内存占用、怎么和DualPipe调度配合。这才是能真正落地的研究。往大了说DeepSeek在找什么回到开头的问题DeepSeek为什么能用更少的钱做出更强的模型这篇论文给出了一个侧面的答案他们在找那些所有人都觉得已经是最优解的东西然后证明它不是。过去十年大模型的架构创新主要集中在微观设计——Attention怎么改、FFN怎么改、位置编码怎么改。但残差连接从2015年到现在几乎原封不动。大家默认它没什么可优化的了。mHC证明了这个假设是错的。更重要的是这种优化的特点是不增加计算量只改变信息流动的方式。同样的FLOPs更好的效果。这可能就是DeepSeek的技术哲学之一不是比谁烧的钱多而是比谁能在同样的资源下榨取更多性能。当然mHC还解决了一个实际问题让HC能稳定训练。HC本身是个好方法但因为不稳定没法用。mHC修复了这个缺陷让这条架构创新的路能走下去。论文最后一句话说得挺直接的我们希望mHC能重新激发社区对宏观架构设计的兴趣。翻译一下过去大家都在卷Attention、卷FFN、卷MoE。现在DeepSeek说层与层之间怎么连接这块也有金矿。最后这篇论文给我最大的启发是当你发现一个方法有效但不稳定时不要放弃而是去找约束条件。双随机矩阵就是这样一个约束——它保留了HC的表达能力可学习的连接权重同时通过数学性质保证了稳定性加权平均不会爆炸。在自由和约束之间找平衡这个思路可能在很多领域都适用。回到开头的问题DeepSeek为什么能做到别人做不到的事这篇论文给出的答案是去质疑那些所有人都觉得没必要改的东西。残差连接用了十年不代表它是最优解。2025年最后一天发这篇论文DeepSeek给2026年开了个好头。参考资料mHC论文https://arxiv.org/abs/2512.24880Hyper-Connections论文https://arxiv.org/abs/2409.19606DeepSeek-V3技术报告https://arxiv.org/abs/2412.19437Deepseek 用我奶奶也能懂的方式用100字解释下这篇论文。奶奶你想啊AI训练就像带熊孩子。以前的规矩是拉着手走一步都不许乱动。安全但孩子啥也学不会。后来有人说放开让他跑吧。结果跑着跑着就跑丢了。DeepSeek的办法让孩子自己跑但只能在围栏里跑。怎么跑都行反正跑不出去。给自由画个圈这就是mHC。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站访问量来源学生处网站建设工作总结

水https://i-blog.csdnimg.cn/direct/7e3a82336c17448cb346e4be4e8e5ca0.png品类领水品类时间-开始时间开始时间-所在位置保质期/月开始时间-所在位置过期日期安全日-提前一个月安全日-期限状态外星人维B水2025/4/25瓶盖-左右9瓶身1/3,小方框2026/1/202025/12/211快…

张小明 2026/1/17 16:31:06 网站建设

网站主页设计注意点网站常用插件

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

张小明 2026/1/17 16:31:07 网站建设

网站聊天代码网站建立失败的原因是

第一章:Dify access_token 容错设计的核心价值与挑战在现代微服务架构中,access_token 作为身份认证的关键凭证,其稳定性和容错能力直接影响系统的可用性。Dify 框架通过精细化的 token 管理机制,在网络抖动、时钟漂移、缓存失效等…

张小明 2026/1/17 16:31:07 网站建设

住房城乡建设干部学院网站微信公众平台开发者中心

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:T4522309M设计简介:本设计是基于单片机的全自动洗衣机控制系统设计,主要实现以下功能:1、洗涤模式选择功能;…

张小明 2026/1/17 16:31:11 网站建设

wap网站建设免费微信公众平台开发者中心在哪里

RedisInsight企业级部署与深度功能解析 【免费下载链接】RedisInsight Redis GUI by Redis 项目地址: https://gitcode.com/GitHub_Trending/re/RedisInsight RedisInsight作为Redis官方推出的专业级可视化工具,在现代数据库管理生态中扮演着至关重要的角色。…

张小明 2026/1/17 16:31:12 网站建设