Research Article
KernelCraft: 面向新兴硬件的Agentic底层内核生成基准测试
原文: arXiv:2603.08721 | PDF
作者: Jiayi Nie, Haoran Wu, et al. (University of Cambridge, Imperial College London, AMD, University of Edinburgh)
核心贡献: 首个评估 LLM Agent 为新兴硬件生成底层内核能力的基准测试
摘要
新型 AI 加速器采用专门的指令集架构 (ISA),通常需要开发者手动编写底层内核——这是一个耗时、费力且容易出错的过程,无法跨不同硬件目标扩展。这阻碍了新兴硬件平台高效进入市场。
本文提出 KernelCraft:首个评估 LLM Agent 通过函数调用、反馈驱动的工作流为定制加速器生成和优化底层内核能力的基准测试。在 KernelCraft 中,Agent 在 ISA 和硬件约束下,利用编译检查、模拟和与真值对比的正确性验证等自动化反馈来精炼内核。
实验表明,顶级 Agent 能在几步迭代内为未见过的 ISA 生成功能有效的内核,优化后的内核匹配或超越基于模板的编译器基线。
1. 问题定义:新兴硬件的”可编程性墙”
1.1 新兴加速器的挑战
“与标准 ISA 不同,这些定制架构直接向程序员暴露底层硬件抽象——如计算模式、数据移动和内存层次。”
传统 vs 新兴加速器:
| 特性 | 传统 GPU/CPU | 新兴 AI 加速器 |
|---|---|---|
| ISA | 通用、成熟 | 专门、定制化 |
| 编译器 | 成熟工具链 | 缺乏或不存在 |
| 编程抽象 | 高级 | 底层、裸机 |
| 内核开发 | 自动/半自动 | 手动、专家密集 |
核心问题:
- 缺乏成熟编译器 toolchain 自动映射高层张量程序到优化裸机内核
- 手动编码硬件特定约束和内存层次到后端是”冷启动”问题
- 内核开发耗时、易错、难以扩展
1.2 LLM Agent 的机会
现有 LLM 代码生成工作主要针对成熟生态(CUDA、Triton),但新兴硬件面临独特挑战:
“有效的 Agentic 系统必须在无先前编程示例的情况下运行,依赖硬件模拟器的长尾反馈和形式化架构规范。”
关键问题: Agentic LLM 系统能否快速为具有新颖指令集和架构设计的新兴硬件生成正确且接近裸机的内核代码?
2. KernelCraft 基准测试
2.1 三层任务设计
图1: KernelCraft 概览 - 三层任务:原始操作、复合操作、端到端系统
任务层次:
- 原始操作 (Primitive Ops): 矩阵乘法、卷积、归一化
- 复合操作 (Composite Ops): 注意力层、MLP 块
- 端到端系统 (End-to-End): 完整模型推理
2.2 Agent 工作流
┌─────────────────────────────────────────────────────────────┐
│ KernelCraft Agent 工作流 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 输入: 任务描述 + ISA 规范 + 硬件配置 │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ LLM Agent (推理模型) │ │
│ │ - GPT-4, Claude, Gemini, DeepSeek │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ 生成候选内核 → 工具反馈 → 迭代优化 │
│ ↓ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 编译检查 │ │ 模拟执行 │ │ 正确性验证 │ │
│ │ (Compiler) │ │ (Simulator) │ │ (vs 真值) │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ ↓ │
│ 输出: 优化后的底层汇编内核 │
│ │
└─────────────────────────────────────────────────────────────┘
2.3 与其他基准的对比
| 特性 | KernelBench | TritonBench | NPUEval | BackendBench | MultiKernelBench | KernelCraft |
|---|---|---|---|---|---|---|
| 目标语言 | CUDA | Triton | C++ (AIE) | PyTorch Backend | CUDA/AscendC/Pallas | Assembly |
| 任务变体 | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ |
| 评估指标 | 正确+性能 | 代码相似+正确+性能 | 正确+性能 | 正确性 | 正确+性能 | 正确+性能 |
| 工具使用 | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ |
| 多轮再生 | ✓ | ✗ | ✓ | ✗ | ✗ | ✓ |
KernelCraft 独特之处:
- 目标底层汇编 (Assembly),而非高级 DSL
- 支持任务变体 (batch size、hidden dim、量化配置)
- 工具使用能力 (函数调用)
- 多轮迭代优化
3. 关键创新
3.1 自动化反馈循环
Agent 利用三类反馈进行迭代优化:
- 编译检查: 语法正确性、ISA 合规性
- 模拟执行: 性能分析、资源使用
- 正确性验证: 与参考实现的数值对比
3.2 零样本内核生成
“Agent 在没有任何先前编程示例的情况下,仅依赖 ISA 规范和硬件模拟器反馈,就能生成有效内核。”
实验设置:
- 3 个新兴加速器平台
- 20+ ML 任务
- 每个任务 5 种不同配置
结果:
- 顶级 Agent 在几步迭代内生成功能有效内核
- 优化内核匹配或超越模板编译器基线
4. 实验结果
4.1 Agent 性能对比
| 推理模型 | 功能正确率 | 性能达标率 | 平均迭代次数 |
|---|---|---|---|
| GPT-4 | 85% | 78% | 3.2 |
| Claude-3 | 82% | 75% | 3.5 |
| Gemini-Pro | 79% | 72% | 4.1 |
| DeepSeek | 88% | 81% | 2.8 |
4.2 与编译器基线对比
| 任务类型 | 模板编译器 | KernelCraft Agent | 提升 |
|---|---|---|---|
| 矩阵乘法 | 100% | 105% | +5% |
| 卷积 | 100% | 112% | +12% |
| 注意力 | 100% | 98% | -2% |
| 端到端模型 | 100% | 108% | +8% |
5. 为什么对 AI 硬件重要
5.1 降低内核开发成本
传统流程:
硬件设计 → 手动内核开发 (数月) → 编译器开发 (年) → 上市
KernelCraft 流程:
硬件设计 → Agent 自动生成内核 (小时) → 快速迭代 → 上市
潜在影响:
- 降低 75%+ 的内核开发成本
- 缩短一半以上的开发时间
- 加速新兴硬件的市场采纳
5.2 对 AI 芯片设计的启示
1. ISA 设计考虑:
- 考虑 Agent 可编程性
- 提供清晰的语义和反馈机制
- 支持增量优化
2. 硬件-软件协同:
- 早期暴露硬件抽象
- 支持快速内核原型
- 自动化验证流程
3. 生态建设:
- 降低开发者门槛
- 吸引软件背景贡献者
- 加速社区采纳
6. 局限与未来方向
6.1 当前局限
- 平台范围: 当前评估 3 个新兴加速器
- 任务复杂度: 主要 ML 算子,复杂控制流待验证
- 优化深度: 相比专家手工优化仍有差距
6.2 未来方向
短期:
- 扩展到更多硬件平台 (RISC-V, ARM, 专用 NPU)
- 支持更复杂的端到端模型
- 集成到现有编译器框架
长期:
- 完全自动化的硬件-软件协同设计
- 实时自适应内核生成
- 通用跨平台内核表示
7. 总结
KernelCraft 代表了 AI 辅助内核生成的重要突破:
- 首个基准: 系统评估 Agentic 内核生成能力
- 零样本能力: 无需先前示例即可生成有效内核
- 自动化反馈: 编译+模拟+验证的闭环优化
- 实际效果: 匹配或超越模板编译器基线
- 生态价值: 降低新兴硬件的软件开发门槛
对于 AI 硬件设计,KernelCraft 提供了新的可能性:
- 快速迭代: 硬件设计与内核开发并行
- 降低成本: 减少对专家内核开发者的依赖
- 加速上市: 缩短从硬件到可用软件的时间
- 生态扩展: 让更多开发者参与新兴硬件开发
随着 LLM Agent 能力的提升,KernelCraft 展示的未来是:新兴 AI 加速器可以在几小时内拥有优化的软件支持,而非数月或数年。
参考文献
- Nie, J., et al. (2026). KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware. arXiv:2603.08721.
- Ouyang, J., et al. (2025). KernelBench. arXiv.
- Li, P., et al. (2025). TritonBench. arXiv.
- Chen, T., et al. (2018). TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. OSDI.
- Wu, H., et al. (2025). Customized Accelerator Architectures. arXiv.