按风险分级决定 Agent 的自治边界

围绕可靠多智能体工作流构建的研究与运营笔记。

团队一旦开始让 Agent 自主执行真实动作，就会很快发现一个尴尬事实：问题不在于“要不要自动化”，而在于“哪些动作可以自动化到什么程度”。同样是一次模型输出，草拟一封内部回复和直接给客户退款，风险完全不是一个量级；同样是一次工具调用，查询工单状态和修改客户权限，业务后果也完全不同。NIST 的 AI 风险管理框架，以及 Anthropic 关于 prompt leak 与 jailbreak 缓解的文档，都在提醒同一件事：自治边界应该由动作风险决定，而不是由模型能力、团队热情或产品上线节奏决定。

对 TaskPilots 这类需要连接真实业务系统、真实权限和真实责任的 Agent Studio 来说，风险分级不是一张挂在墙上的矩阵，而是系统运行时的控制规则。它应该明确回答四个问题：当前动作属于哪一档风险、这一档能否自动执行、是否必须触发审批或人工接管、以及即使被越狱或提示注入命中，损害上限会被限制在哪里。只有先把这些边界写清楚，团队才能让 Agent 安全地获得更多自治，而不是每次出事后再回头补流程。

为什么这个问题重要

自治风险真正来自动作，不来自回答长度

很多团队最初会按任务类型讨论风险，比如“客服场景风险高”“内部知识问答风险低”，但真正决定后果的通常不是场景名，而是动作本身。一个看似普通的客服流程里，可能同时包含低风险的状态查询、中风险的模板建议、高风险的补偿承诺和极高风险的退款执行。如果不按动作分级，系统就容易在同一条链路里把所有步骤用同一套权限和同一套拦截规则处理，结果不是过度阻断，就是误放行。

能读到什么，决定了信息泄露风险。
能改动什么，决定了业务副作用风险。
能代表谁承诺什么，决定了法律与合规风险。

没有分级，护栏会变成一刀切

Anthropic 对减少 prompt leak 和缓解 jailbreak 的建议，都强调要把敏感上下文、工具权限和执行边界分层处理。如果团队没有先定义风险层级，最常见的结果就是把所有请求都压在同一种护栏上。护栏过重时，低风险动作也要排队审批，系统几乎失去自治价值；护栏过轻时，高风险动作又会被混进自动化通道。真正可持续的做法，是先按风险给动作分类，再为每一档定义不同的权限、校验和人工介入要求。

适用场景

哪些团队最需要动作级风险分档

最需要做这件事的，是那些 Agent 已经不只是“给建议”，而是在操作真实系统的团队。典型场景包括客服补偿与退款、对外邮件回复、CRM 更新、工单升级、内部权限开通、财务异常处理，以及会调用第三方系统写入数据的运营链路。这些流程共同的问题，不是模型能不能答对，而是系统有没有能力在每一步判断“现在允许自动做多少”。

哪些阶段可以先用简化版

如果当前系统仍停留在草稿生成、知识检索、人工逐条终审、没有直接副作用的阶段，当然也可以做风险分级，但不必一开始就设计复杂的五层或七层模型。更合理的起点，是先区分三类动作：只读、可逆写入、不可逆或高责任写入。只要这三类先分清，后续再逐步补足更细的审批、证据和限权规则，团队就不会在原型期背上过重流程。

风险与失效点

最常见的失误是按场景分级，不按动作分级

生产环境里最常见的偏差，是团队用“客服流程”“销售流程”“内部助手”这样的标签来做分级，结果把同一条链路里高低风险差异巨大的动作混在一起。这样一来，系统要么把低风险动作也锁死，要么让高风险动作顺着低风险流程滑过去。另一类常见问题，是风险等级在文档里定义了，但没有同步到工具权限、审批策略和日志字段中，最后变成一套人人看过、运行时谁也没用的制度。

只按团队分级，会掩盖同一团队内部动作的巨大差异。
只按输入分级，会忽略执行阶段的真实副作用。
只按模型输出分级，会漏掉工具调用和外部写入风险。

高风险动作最怕被“顺手自动化”

另一种失控方式，是团队先让系统在低风险动作上跑通，然后为了体验顺滑，把高风险动作也一点点塞进同一条自动化路径里。例如先允许 Agent 草拟补偿方案，后来又允许它直接提交补偿申请，再后来甚至允许它在阈值内自动发放。每一步单看都像合理优化，但如果没有重新评估风险等级、攻击面和证据要求，系统就会在“本来只是建议”的外壳下悄悄获得高风险执行能力。

验证指标

上线前先验证分级是否真能改变运行路径

上线前不要只检查风险矩阵写得漂不漂亮，而要验证同一条链路在不同档位下是否真的会走出不同路径。建议至少准备三类测试：第一类是边界样本，确认低风险和高风险动作不会被判到同一档；第二类是越权样本，确认高风险动作即使被诱导也拿不到超范围工具；第三类是回放样本，确认审批和人工接管只在应触发的档位出现。只有运行路径真的随风险变化，分级才不是纸面制度。

上线后持续看拦截质量与业务摩擦

生产阶段至少要长期跟踪五类指标：风险分类准确率、审批命中率、误放行率、误伤率和高风险动作审计完备度。前两项衡量分级是否把动作送进了正确通道，中间两项判断护栏是否过松或过紧，最后一项确保高风险动作即使进入人工路径也留下完整证据。除此之外，最好再补一项“高风险动作自动化占比变化”，因为这能帮助团队识别自治边界是否在没有重新评估的情况下被慢慢扩张。

分类准确率低，说明分级标准或样本定义仍然模糊。
审批命中率异常高，说明过多中低风险动作被推给人工。
误放行率上升，说明高风险动作正在绕开本应存在的控制点。

下一步 / FAQ

下一步先做一张动作清单，而不是先写制度

最实际的第一步，不是先开会讨论“我们要不要做风险治理”，而是先把当前 Agent 真正会做的动作列出来，再逐条标注影响范围、可逆性、敏感性、身份代表性和攻击面。只要这份动作清单出来，很多团队就会立刻发现，自己原本以为的“一个功能”其实包含了四五种风险完全不同的动作。先把动作拆开，再谈分档、审批和最小权限，推进会顺得多。

FAQ：风险档位需要做得很细吗

不一定。比起一开始设计八档十档，通常更重要的是先让每一档都能映射到清晰的运行规则。档位太多但规则不清，效果往往不如三到四档、每档都有明确权限和审批条件的模型。

FAQ：同一个请求能跨多个风险档位吗

可以，而且在生产环境里很常见。关键是不要按请求整体取平均风险，而要按动作拆分。例如同一条客服请求里，查询状态可以自动做，草拟回复可以自动做，但退款执行必须升级审批。

FAQ：风险分级会不会拖慢交付

前期会增加一些建模和治理成本，但通常会换来更少的事故和更快的放权决策。没有风险分级时，团队往往只能在“全自动”与“全人工”之间来回摇摆，长期反而更慢。

预约演示查看产品体系