智能体工作流真正难改进的时刻,通常出现在出错以后。团队能看到结果不对,却解释不清是哪一条分支、哪一次委派或哪一轮重试把系统带偏了。
所以生产级可观测性不只是留日志,而是把决策链路留下来。只有这样,系统才真的可诊断、可复盘、可改进。
只看模型日志远远不够
提示词日志和工具调用记录很有用,但它们解释不了系统为什么走到某条路径。
- 保留工作流 id 和当前状态。
- 保留分支创建与关闭事件。
- 保留委派契约与返回结果。
- 保留重试、升级和终止原因。
要追链路,不只看事件
日志告诉你发生了什么,链路告诉你事情是怎么一步步走到这里的。运营者真正需要的是后一种视角。
把委派当成一级事件
每次控制器把任务交给专家,都应该留下交接包、接收方和后续评估结果。否则你只能看到最后的错误,却看不到问题从哪次转移开始。
先定义失败分类
失败如果没有统一语言,每次都会像全新事故。提前分类,才能让看板、重试和人工升级说同一种话。
- 规划失败
- 工具执行失败
- 交接失败
- 状态持久化失败
- 策略判断失败
运营者需要的是压缩视图
真正有用的界面不是堆更多遥测,而是清楚展示时间线、当前状态、最后一个成功检查点,以及为什么停在这里。
长周期链路要支持恢复阅读
工作流一旦会等待数小时或数天,链路就必须能说明它何时暂停、在等什么,以及后来是什么把它唤醒。
结语
可观测性不是调试便利,而是平台能力。把委派、判断、暂停和恢复都留下来,系统才不只是“看起来聪明”。