Research Article
Design Conductor: AI 自主构建 1.5GHz RISC-V CPU 的突破性进展
Design Conductor: AI 自主构建 1.5GHz RISC-V CPU 的突破性进展
原文链接: arXiv:2603.08716
核心亮点
这是首次有自主 AI 代理从规格说明到 GDSII 完整构建出一个可工作的 CPU。Design Conductor (DC) 在 12 小时内自主构建了一个完整的 RISC-V CPU(VerCore),时钟频率达到 1.48 GHz,CoreMark 得分 3261,性能约等于 2011 年的 Intel Celeron SU2300。
摘要
Design Conductor 是一个端到端的自主代理系统,能够应用前沿模型的能力来构建半导体——从概念到可 tape-out 的 GDSII 布局文件。仅从一个 219 词的需求文档开始,DC 在 12 小时内完全自主地构建了多个微架构变体的完整 RISC-V CPU,满足 1.48 GHz 的时序要求。VerCore 的 CoreMark 得分为 3261。本报告回顾了 DC 的设计架构、方法论、关键组件,以及如何与 EDA 工具交互实现时序收敛,并讨论了前沿模型如何改进以更好地支持此类应用。
1. 问题定义
芯片设计是一个高度耗时且昂贵的过程。将新的领先设计推向市场需要超过 4 亿美元,耗时 18-36 个月,即使有数百人的工程团队。芯片设计流程包括多个独立步骤:
- 架构定义
- RTL 实现
- 测试平台实现和功能验证
- 前端综合
- 布局布线
- 功耗估计
- 封装
其中最关键的挑战是极高的功能测试覆盖率要求——因为单次 tape-out 成本高达数千万美元,生产后”修复”bug 是不可行的。这导致验证成本占总成本的 50% 以上。
“由于这些成本和挑战,许多硅市场由少数供应商服务,初创企业的进入比软件行业更为罕见。”
Design Conductor 的目标是通过长时程自主 AI 代理来改变这一范式,解决从概念到 GDSII 的整个问题。
2. Design Conductor 架构
2.1 核心能力
DC 被设计为实现以下关键能力:
稳定长时程执行:芯片设计是复杂任务,包含多个子组件。DC 必须能够在消耗数百亿 token 的过程中持续向目标推进——功能正确、高性能的设计。
上下文管理:DC 必须为底层 LLM 提供做出良好决策所需的信息,同时精心管理有限的上下文窗口。
技术掌握:芯片设计需要特定领域的深度知识。DC 必须达到足够高的知识水平,能够与领域专家顺畅合作。
正确性与验证:当生产数百万单位时,”凭感觉设计芯片”是不可行的。DC 必须交付可验证的正确设计。
平衡探索与速度:芯片设计空间巨大。DC 必须能够探索该空间,同时避免陷入”兔子洞”,及时完成总体目标。
端到端操作:人类芯片设计过程中最昂贵和痛苦的部分是在 tape-out 前最后一刻需要 RTL 更改以满足时序目标或修复功能 bug。DC 必须执行相同的操作,同时保持必要的上下文和记忆。
基础设施:大规模芯片设计对硬件资源要求极高。VCD 跟踪文件可达数百 GB,EDA 工具在综合、布局和布线期间使用大量 DRAM。
2.2 系统架构
DC 是一个可扩展的、基于云的应用程序,运行在分布式文件系统上。LLM 会话由工作服务器管理,所有服务器都同步到中央数据库。这些会话连接到存在于一个或多个执行环境中的工具服务器。
上下文管理模块监控和控制各种会话的上下文窗口使用。DC Core 模块管理子代理和更高级别的算法(如进化算法),与下层 LLM 会话交互。
特定知识通过专用知识库提供给 DC。记忆无限期存在并完全自主管理。单个 DC”实例”专用于一个客户的设计,确保代码、记忆或任何信息不会在客户之间交叉。
3. 方法论
3.1 输入规格
DC 的唯一用户输入是一个简洁的需求文档:
VerCore RISC-V Design Requirements Overview
构建 VerCore,一个支持 RV32I 和 ZMMUL 的 RISC-V CPU 核心:
- 指令缓存接口(32 位数据路径)
- 数据缓存接口(32 位数据路径)
- 其他接口信号:核心时钟输入、复位输入(低有效)
- 简单 5 级流水线设计,顺序执行,单发射
- 不支持压缩指令
- 寄存器文件实现为触发器
- CPI <= 1.5
- 目标时钟频率 1.6 GHz
- 最大化 CoreMark 得分
- 使用 ASAP7 平台/PDK 和 OpenROAD flow scripts 生成 GDSII
3.2 设计流程
DC 遵循以下流程:
-
设计提案:DC 首先创建详细的架构设计提案,包括流水线阶段、冒险处理、转发逻辑等
-
手动审查:DC 会”手动”和”细致”地审查提案的每个方面,确保设计在实现前是正确的
-
模块实现:DC 构建每个模块的测试平台,在继续之前修复模块功能以确保测试通过
-
集成测试:DC 使用 Spike 构建整体测试平台,在 DUT 上运行测试程序并确认设计的架构状态和内存事务与 Spike 报告匹配
-
调试与修复:当发现与 Spike 的差异时,DC 观察条件并检查 VCD 文件调试问题。通常将 VCD 转换为 CSV 文件,使用 Python 能力简化处理
-
PPA 收敛:所有测试程序通过后,DC 审查时序报告并进行 RTL 更改以实现 PPA(性能、功耗、面积)收敛
3.3 调试方法示例
DC 在调试过程中编写了脚本来分析 VCD 文件:
import pandas as pd
df = pd.read_csv('vercore_tb.csv')
# 比较预期和实际的寄存器写入
# 追踪流水线状态,识别根本原因
通过 VCD 分析,DC 能够追踪问题的根本原因,提出修复方案,实施并再次测试。
4. 实验结果
4.1 关键指标
| 指标 | 值 |
|---|---|
| CoreMark 得分 | 3261 |
| 面积(不含缓存) | 2809 µm² |
| 时钟频率 | 1.48 GHz |
| 工艺 | ASAP7 7nm |
4.2 VerCore 流水线特性
VerCore 采用 5 级流水线设计,具有以下特性:
- 早期分支解析:在 ID 阶段尽可能早地解析分支
- 早期转发:实现 EX→ID 转发以解决 ALU 依赖
- 高效 Booth-Wallace 乘法器:4 级流水线,单独时钟频率达 2.57 GHz
- 1 周期分支惩罚:DC 通过完整实现多个变体并生成 GDSII,得出结论:即使有更长的关键路径,1 周期分支惩罚设计也能满足时钟频率目标
这些特性是 DC 自主发现的,并未包含在任何输入指令中。DC 本质上重新发现了原始 MIPS 5 级 RISC CPU 设计的关键路径,后者也采用了 1 周期分支惩罚!
4.3 流水线冒险处理
DC 实现了完整的冒险检测和处理逻辑:
| 冒险类型 | 处理机制 |
|---|---|
| Load-use | stall IF/ID + PC 保持,插入 bubble |
| Branch/jalr | 使用与 load-use 相同的检测,EX→ID 转发解决 ALU 依赖 |
| Mul stall | 全局 stall 保持所有流水线寄存器 + PC |
| Branch/jump taken | 更新 PC 到目标,flush IF/ID,插入 bubble |
5. 前沿模型的教训
5.1 架构推理
基础模型需要额外帮助来像架构师一样推理。观察到模型做出次优设计选择的情况,需要大量 token 来优化。例如,转发实现最初往往导致过长的关键路径。只有在观察到时序结果后,模型才理解问题并修复。
5.2 RTL 和时序理解
观察到模型将 Verilog(事件驱动语言)推理为顺序代码的情况。虽然这不影响 DC 实现功能正确性,但使调试时序问题更具挑战性。
“DC 错误地推理减少依赖代码行数会缩短芯片中的关键路径。”
这些错误最终会被纠正,因为 DC 可以访问工具的实际时序报告,但它们会减慢 DC 的进度并消耗额外 token。
5.3 规格要求
输入规格必须以极其谨慎、严格和可验证/可测量的方式编写。例如,如果没有 CPI 要求,DC 有时会生成分支和转发性能明显较差的处理器。有了这一行,DC 会在测试平台中使用周期计数器来计算 Spike 跟踪中报告的每 PC 周期数来估计 CPI。
6. 未来方向
6.1 扩展
DC 扩展到非常大的代码库(如数百万行 Verilog)没有特别问题。在 13 级乱序处理器的代码库测试中,DC 能够像在 VerCore 上一样解决功能和时序问题。
关键挑战不在于处理代码库的机制,而在于 DC 需要由特定设计领域经验丰富的架构师操作才能取得良好结果。
6.2 新设计流程
有了 DC 这样的系统,目前由 100 多人组成的团队将能够同时探索许多不同的设计、架构和产品想法,每个都从概念到 GDSII。这些团队将能够在 3-6 个月内 tape-out 最复杂的设计,而不是当前的 18-36 个月。
“未来团队中的高级工程师和大师级设计师将拥有更少的’工具操作’责任,而是依靠他们的判断和经验,DC 能够处理几乎所有其他工程工作。”
公司还将在以前因量太小而无法盈利服务的应用中找到更多可寻址的 socket。
7. 总结
Design Conductor 代表了芯片设计自动化的重大突破:
成就:
- 首次自主代理从 spec 到 GDSII 构建完整 CPU
- 12 小时内完成,1.48 GHz 时钟频率
- CoreMark 3261,相当于 2011 年 Celeron 水平
- 自主发现优化技术(早期转发、Booth-Wallace 乘法器)
关键创新:
- 长时程稳定执行(数百亿 token)
- 端到端操作(RTL 到 GDSII)
- 验证驱动方法(Spike 比对、VCD 分析)
- 记忆系统管理跨会话上下文
局限性:
- 需要人类架构师指导以获得最佳结果
- 模型对 RTL/时序理解仍有改进空间
- 规格必须极其严格和可验证
未来影响:
- 设计周期从 18-36 个月缩短到 3-6 个月
- 小批量设计变得经济可行
- 工程师角色从工具操作转向架构决策
这标志着 AI 在硬件设计领域的里程碑,展示了自主代理在复杂工程任务中的巨大潜力。
参考文献
- Verkor Team. Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU. arXiv:2603.08716, 2026.
- EEMBC. CoreMark EEMBC Benchmark. https://www.eembc.org/coremark/
- RISC-V International. Spike, a RISC-V ISA Simulator. https://github.com/riscv-software-src/riscv-isa-sim
- Andrew Waterman et al. The RISC-V Instruction Set Manual, Volume I: Base User-Level ISA. UC Berkeley, 2011.