Research Article

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

March 17, 2026 · research, ai, ml, systems

Rate this article:

0.0 (0 votes)

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

原文链接: arXiv:2603.07006 PDF

摘要

Mixture-of-Experts (MoE) 架构通过模块化计算为大语言模型 (LLMs) 提供了更高的效率，但其固有的稀疏性带来了显著的硬件部署挑战，包括内存局部性问题、通信开销和计算资源利用效率低下。受人类大脑模块化组织的启发，作者提出了 Mozart——一个专为 3.5D 晶圆级 Chiplet 架构上高效训练 MoE 大模型设计的新型算法 - 硬件协同设计框架。在算法侧，Mozart 利用 Chiplet 的固有模块化特性，引入了专家分配策略和细粒度调度机制；在架构侧，Mozart 自适应地在专用 Chiplet 上协同放置异构模块，采用 2.5D NoP-Tree 拓扑和分层内存结构。在三个主流 MoE 模型上的评估显示了显著的效率提升。

1. 问题定义

“Mixture-of-Experts (MoEs) 的规模和异构性对传统硬件平台（如 GPU 或 CPU）提出了重大挑战，包括光刻掩模限制的可扩展性、晶体管缩放极限、糟糕的内存局部性、高模块间通信开销，以及由于动态和不均匀的计算工作负载导致的资源利用效率低下。”

随着大语言模型规模的不断增长，MoE 架构通过动态激活专门的子网络来处理输入，实现了模型容量的扩展而不会按比例增加计算成本。然而，这种稀疏性和模块化特性在传统硬件上面临以下核心问题：

内存局部性差：专家参数分散存储，导致频繁的片外内存访问
通信开销高：All-to-All 通信需要同步所有并行单元，受通信带宽限制
资源利用效率低：动态和不均匀的计算工作负载导致硬件资源浪费
可扩展性受限：传统单片集成受光刻掩模尺寸和晶体管缩放极限限制

2.5D/3.5D 异构 Chiplet 架构因其可扩展性和模块化而受到关注，但现有工作主要关注稠密均匀计算，忽略了 MoE 的细粒度模块化特性，导致过多的片间通信和低效的资源利用。

2. 方法框架

Mozart 算法 - 硬件协同设计架构图 图：Mozart 算法 - 硬件协同设计框架（来源：原文 Figure 2）

Mozart 通过算法 - 硬件协同设计来解决 MoE 大模型在 Chiplet 系统上后训练过程的关键瓶颈。

2.1 算法侧优化

专家聚类与分配（Expert Clustering and Allocation）：首先对指令微调数据集进行 profiling，使用预训练模型获取专家协作模式先验。然后通过以下两步优化专家布局：

“我们将单个专家聚类为专家 -Chiplet 分配的候选，旨在增强簇内协作同时最小化簇间协作。”

Stage-1 专家聚类：受点云学习中最远点采样算法启发，将频繁共激活的专家聚类到同一簇中
Stage-2 专家簇分配：将簇 -Chiplet 分配形式化为二元整数规划问题，优化目标是最小化工作负载分布的不平衡度

细粒度调度（Fine-grained Scheduling）：通过流式传输 token 和专家来重叠 DRAM 通信开销与片上计算：

流式专家：根据 profiling 的工作负载分布，优先加载计算工作负载更重的专家簇
流式 Token：将全局 token 批次划分为微批次，实现 DRAM 通信（保存激活值）与片上计算的重叠

2.2 硬件侧设计

3.5D 晶圆级 Chiplet 架构具有以下关键特性：

“我们提出了一种 3.5D 晶圆级 Chiplet 架构，采用 2.5D NoP-Tree 互连和分层内存结构，支持低延迟片上激活重用、通信感知专家聚类和针对稀疏 MoE 计算定制的通信 - 计算交错执行。”

2.5D NoP-Tree 拓扑：将注意力 Chiplet 组织为中央调度器，专家 Chiplet 作为叶节点，交换机支持网络内 MoE 聚合
分层内存结构：模型权重存储在分布式 DRAM 中，激活值缓存在本地 SRAM 中
3D 逻辑 - 内存堆叠：每个计算 Chiplet 通过混合键合垂直堆叠计算芯片和 SRAM 芯片，实现快速本地访问

3. 核心模块

3.1 专家协作优化 All-to-All 通信

All-to-All 通信是专家并行中的关键瓶颈。Mozart 通过优化专家布局来增加共激活专家在同一 Chiplet 上的概率，从而减少通信数据量。

“通过优化专家布局以增加这种共定位的可能性，CT（每个 token 的平均复制次数）可以进一步最小化，从而降低 all-to-all 通信的开销。”

在标准专家并行框架中，CT = k（top-k 路由）。Mozart 通过专家聚类策略，将频繁共激活的专家放在同一 Chiplet 上，使得某些 token 只需要一个副本，从而减少 CT。

3.2 细粒度调度流水线

图：前向传播中的细粒度调度流水线（来源：原文 Figure 4）

Mozart 的细粒度调度主要在两个方面重叠通信和计算：

加载高激活簇 & 注意力计算：在注意力模块计算时，并行加载高激活专家簇
加载低激活簇 & 高激活簇计算：在高激活簇计算时，并行加载低激活簇

这种调度策略有效隐藏了 DRAM 通信延迟，提高了训练吞吐量。

3.3 3.5D Chiplet 物理架构

3.5D Chiplet 架构图 图：Mozart 的 3.5D Chiplet 架构（来源：原文 Figure 5）

3D Chiplet 堆叠：每个计算 Chiplet 集成逻辑芯片和 SRAM 芯片，支持注意力或 MoE-FFN 操作
2.5D NoP-Tree 拓扑：16 个专家簇 Chiplet 分为 4 个交换机连接的组，注意力 Chiplet 位于中心作为调度节点
内存层次：两级内存层次，权重存储在 DRAM，激活值缓存在 SRAM

4. 实验设置

实验使用了三个不同规模的 MoE 模型，配置如下表所示：

模型	总参数量	激活参数量	路由专家数	共享专家数	隐藏层维度	层数	路由策略
Qwen3-30B-A3B	30.5B	3.3B	128	0	2048	48	top-8
OLMoE-1B-7B-0924	6.92B	1.3B	64	0	2048	16	top-8
DeepSeek-MoE-16B	16.4B	2.7B	64	2	2048	28	top-6

数据集：Alpaca（52K 样本的指令微调数据集）

评估指标：延迟和能耗

硬件配置：

16 个专家簇 Chiplet + 1 个专用注意力 Chiplet
每个 MoE/注意力 Chiplet 有 36-100 个 tile，每个 tile 包含 16 个 systolic arrays
6 个 HBM2-based DRAM（4 个共享给专家组，2 个专用于注意力 Chiplet）
28nm 工艺，1GHz 时钟频率

5. 实验结果

5.1 优化技术有效性

下表展示了 Mozart 四种配置的性能对比：

优化技术	Baseline	Mozart-A	Mozart-B	Mozart-C
专用专家布局（4.2 节）	✗	✗	✗	✓
高效 All-to-All 通信（4.2 节）	✗	✗	✓	✓
通信 - 计算重叠（4.3 节）	✗	✓	✓	✓

加速比结果：

模型	Baseline	Mozart-A	Mozart-B	Mozart-C
Qwen3-30B-A3B	1.0×	1.33×	1.69×	1.92×
OLMoE-1B-7B-0924	1.0×	1.58×	2.05×	2.37×
DeepSeek-MoE-16B	1.0×	1.49×	1.89×	2.17×

5.2 All-to-All 通信复杂度与延迟相关性

指标	Qwen3-30B-A3B	OLMoE-1B-7B-0924	DeepSeek-MoE-16B
方法	Mozart-A / B / C	Mozart-A / B / C	Mozart-A / B / C
归一化延迟	0.73 / 0.59 / 0.52	0.63 / 0.48 / 0.42	0.67 / 0.56 / 0.46
CT（通信复杂度）	8 / 6.58 / 5.77	8 / 6.84 / 5.63	6 / 5.56 / 4.32

实验结果表明，all-to-all 通信数据量与端到端训练延迟呈正相关。

5.3 序列长度和 DRAM 带宽影响

序列长度影响：随着序列长度从 128 增加到 512，训练延迟增加。Baseline 设计从 3.88s（长度 128）增加到 7.64s（长度 512），而 Mozart-C 在所有序列长度下都保持最低延迟，在长度 512 时实现 2.34×加速，在长度 128 时实现 1.47×加速。

DRAM 带宽影响：使用 HBM2（256GB/s）相比 SSD（15.8GB/s）所有配置都实现了更低的延迟。值得注意的是，Mozart 优化在 HBM2 下的相对加速比更高，因为更快的流式传输允许更好地利用计算 - 通信重叠。

6. 优点与局限

优点

显著的性能提升：在三个 MoE 模型上实现 1.92×-2.37×的加速比
算法 - 硬件协同设计：充分利用 Chiplet 架构的模块化特性，与 MoE 的逻辑模块化天然互补
通信效率优化：通过专家聚类和细粒度调度，显著减少 all-to-all 通信数据量
可扩展性：3.5D 晶圆级架构支持大规模 MoE 模型的高效部署
兼容性强：与 LoRA、QLoRA 等参数高效微调方法正交兼容

局限

注意力模块资源受限：注意力模块分配给单个 Chiplet，可能导致次优延迟，可通过数据或张量并行进一步改进
交换机可能成为瓶颈：在高通信需求下，交换机可能成为性能瓶颈，需要分配更多 Chiplet 面积和带宽
内存绑定：Mozart 是内存绑定而非计算绑定，系统整体延迟受限于顺序的 MoE 权重加载过程
硬件升级需求：权重加载吞吐量无法在当前硬件约束下大幅提升，需要硬件资源升级

7. 总结

Mozart 是一个用于在 Chiplet 系统上高效后训练 MoE 大模型的算法 - 硬件协同设计框架。通过联合优化专家分配、细粒度调度和异构 Chiplet 映射，Mozart 在 3.5D 晶圆级架构上显著提高了通信效率和硬件利用率。

“Mozart 在 3.5D 晶圆级架构上对 Qwen3-30B-A3B-Base 实现了 1.92×的性能提升，对 OLMoE-1B-7B-0924 实现了 2.37×的提升，对 DeepSeek-MoE-16B-Base 实现了 2.17×的提升，展示了其在增强并行化效率和优化大规模模块化 MoE 大模型后训练部署资源利用方面的潜力。”

Mozart 的核心洞察是：通过充分利用 MoE 的专家专业化（expert specialization）和专家协作（expert collaboration）现象，结合 3.5D Chiplet 架构的物理模块化特性，可以实现算法与硬件的完美匹配，从而突破传统硬件在稀疏 MoE 计算上的效率瓶颈。

参考文献

Luo, S., Ye, H., Li, P., Qin, J., Peng, J., Zhao, Y., Cao, Y., & Chen, T. Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures. arXiv preprint arXiv:2603.07006, 2026.
Dai, D., et al. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. arXiv preprint arXiv:2401.06066, 2024.
Jiang, A. Q., et al. Mixtral of Experts. arXiv preprint arXiv:2401.04088, 2024.
Fedus, W., Zoph, B., & Shazeer, N. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. Journal of Machine Learning Research, 23(120):1-39, 2022.
Gale, T., Narayanan, D., Young, C., & Zaharia, M. MegaBlocks: Efficient Sparse Training with Mixture-of-Experts. Proceedings of Machine Learning and Systems, 5:288-304, 2023.
Lepikhin, D., et al. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. International Conference on Learning Representations, 2021.