Research Article
模型够聪明之后,工程师该做什么:Harness Engineering 实战指南
模型够聪明之后,工程师该做什么:Harness Engineering 实战指南
原文来源: 小红书 - 模型够聪明之后,工程师该做什么
最近科技圈在疯传一个数字:OpenAI 的 3 个工程师用 5 个月生成了 100 万行生产代码,没有一行是人手写的。
他们给这种工作方式起了个名字:Harness Engineering(编排工程)。
这句话点破了本质:
模型已经够聪明了,问题出在你给它的环境不够好。
同一个模型,换个环境设计,性能能差 64%。不是 AI 不行,是你没给它搭好”跑道”。
Harness Engineering 的 6 个层次
1️⃣ 持久状态 — 解决 AI”失忆”问题
每次对话 AI 都是白纸一张,你得用文件让它记住做到哪了。
实战要点:
- 使用
memory/目录保存会话状态 - 每个任务创建独立的上下文文件
- 用 Git 跟踪状态变更历史
# memory/task-state.md
- [x] 需求分析完成
- [ ] 代码实现中 (进度:3/5 模块)
- [ ] 测试用例编写
2️⃣ 执行环境 — 给 AI 手和脚
不只是能写代码,还得能跑代码、看页面、查日志。
实战要点:
- 配置沙箱执行环境(Docker/容器)
- 提供日志访问权限
- 支持浏览器自动化(Playwright/Puppeteer)
3️⃣ 上下文工程 — 对抗信息污染
200K 的窗口实际可用只有 160K,信息越多推理越差。
实战要点:
- 只加载当前任务相关的文件
- 用摘要代替完整历史
- 定期清理过期上下文
# 示例:只加载相关文件
find src -name "*.py" | grep -E "(core|api)" | head -20
4️⃣ 反馈验证 — 闭合回路
AI 说”做完了”不算数,测试通过了才算数。
实战要点:
- 每个任务必须有自动化测试
- CI/CD 流水线集成
- 失败时自动回滚 + 错误报告
5️⃣ 架构约束 — 防止代码漂移
AI 会复制坏模式,必须用规则机械化地拦住。
实战要点:
- 用 linter 强制执行代码规范
- 架构决策记录(ADR)
- 代码审查 checklist
# .github/copilot-rules.yaml
allowed_patterns:
- "async/await for I/O"
- "type hints required"
forbidden_patterns:
- "global mutable state"
- "bare except:"
6️⃣ 编排协调 — 跨会话接力
一个会话做不完的事,怎么让下一个 AI 接着做。
实战要点:
- 标准化的交接文档格式
- 任务队列管理
- 会话间状态同步机制
关键洞察:判断力才是核心竞争力
工具层的配置很快就能学会,真正拉开差距的是判断力——你能不能定义什么叫”好”、什么叫”做完了”、什么架构约束是必须守住的。
AI 擅长生成和执行,人擅长判断和决策。
最好的方式不是跟 AI 抢同一件事,而是各司其职:
| AI 负责 | 人负责 |
|---|---|
| 代码生成 | 定义验收标准 |
| 测试执行 | 判断测试是否充分 |
| 文档草稿 | 审核技术准确性 |
| 重构建议 | 评估架构影响 |
判断力从哪里来?
判断力来自对计算机科学体系化的理解 + 持续和 AI 协作的实践。
不需要你手写排序算法,但你得知道:
- 这个复杂度在当前规模下行不行
- 这个架构选择对扩展性意味着什么
- 这个技术债将来要花多少代价
行动清单
如果你今天开始实践 Harness Engineering:
- 搭建持久状态系统 — 创建
memory/目录和状态跟踪模板 - 配置执行环境 — 确保 AI 能跑代码、看日志、访问测试
- 定义架构约束 — 写清楚什么能做、什么不能做
- 建立反馈闭环 — 每个任务必须有自动化验证
- 设计交接协议 — 标准化跨会话协作格式
写在最后
Harness Engineering 不是要取代工程师,而是要放大工程师的价值。
当 AI 处理生成和执行时,你可以把精力集中在:
- 理解用户需求
- 设计系统架构
- 做出关键决策
- 探索创新方向
这才是工程师该做的事。
相关资源
| *Posted on 2026-03-23 | Categories: Engineering, AI, Productivity* |