DeepSeek 的 mHC 架构破解大模型训练困局

新年伊始,AI 领域迎来重磅消息。DeepSeek 悄然发布的一篇论文,虽未举办发布会、未进行宣传,却在 AI 技术圈激起层层涟漪。该论文提出的 mHC 新架构,旨在攻克大规模模型训练中的稳定性难题,同时保留性能提升的优势。

大模型宛如一座复杂的信息处理工厂,残差连接恰似工厂里的传送带。早期的单通道传送带,凭借“恒等映射”设计,保障信息完整传递,使训练稳定有序。然而,随着模型规模不断膨胀,单通道传送带不堪重负,信息拥堵如城市高峰时段的交通。

为缓解这一困境,字节跳动团队曾提出超连接方案,如同将单通道传送带升级为多通道,信息传输效率显著提高,性能也随之提升。但新的问题接踵而至,多通道缺乏统一调度规则,信息传输时如同失控的跷跷板,出现放大或压制现象,导致训练过程中梯度爆炸,模型训练半途而废。例如,某头部 AI 企业在使用类似超连接方案训练千亿级模型时,训练进行到一万多步便频繁中断,损失值急剧飙升,前期的算力和资金投入付诸东流。

面对这一痛点,DeepSeek 的 mHC 架构应运而生。论文的第一作者包括解振达、韦毅轩、曹焕琦,甚至创始人梁文锋也位列作者名单,足见 DeepSeek 对该项研究的重视。

mHC 架构的核心在于为多通道添加一套智能调度系统。该系统基于 Sinkhorn - Knopp 算法,将连接矩阵约束在双拟随机矩阵的流形上,如同为信息传输划定了安全航道。双拟随机矩阵行和列之和均为 1 且均为非负数,确保信息传播时能量守恒,避免信息的突然放大或缩小。此外,mHC 还对输入输出映射施加非负约束,防止正负系数相互抵消导致有用信号丢失。这种改良式创新并非否定超连接拓宽通道的思路,而是在此基础上进行优化,更易落地实施。

为控制训练开销,DeepSeek 进行了基础设施优化。他们将多个计算步骤融合为一个算子,减少内存读写次数,并采用重计算策略,前向传播时丢弃中间数据,反向传播时重新计算,大幅降低了内存占用。在扩展倍率为 4 的情况下,训练时间仅有轻微增加,却换来了稳定性的显著提升。

实践是检验真理的唯一标准,一款架构的优劣最终需由实验数据评判。DeepSeek 对不同规模的模型进行测试,重点验证了 27B 参数模型的表现。结果表明,mHC 彻底解决了超连接的训练不稳定问题,最终损失值低于传统基线模型。在下游任务测试中,mHC 全面超越基线模型,在推理相关任务上,比超连接提升了几个百分点。规模扩展实验也显示,从 3B 到 27B 参数的模型,mHC 的性能优势始终保持,且不受训练数据量增加的明显影响,证明其在大规模模型上同样具有实用价值。

mHC 架构的意义不仅在于解决技术痛点,更在于为行业指明方向。大模型竞争不再局限于简单的参数和算力堆叠,架构的精细化设计同样关键。此前,许多中小企业因训练不稳定、成本过高而对大规模模型领域望而却步,mHC 的出现有望降低这些企业的入局门槛。

综上所述,DeepSeek 的这篇开年论文分量十足。mHC 架构以巧妙设计平衡了性能、稳定性和成本三大核心要素,为大模型架构的演进提供了新思路。对于 AI 行业而言,这种务实的技术创新远比噱头式突破更具价值。未来,随着更多企业的跟进和优化,有望催生出更多高效稳定的大模型架构,推动 AI 技术更广泛地落地应用。

关注获取内测资格

关注获取内测资格