GPT-5 控制代理主动性
代理框架的控制力度可以横跨一个极宽的谱系:有些系统把绝大部分决策权都交给底层模型,而另一些系统则用严格的程序化逻辑分支把模型“拴得死死的”。GPT-5 接受了训练,能够在这个谱系的任意位置工作——既能在含糊不清的情境中做高层决策,也能处理目标明确、定义清晰的任务。本节将介绍如何最好地校准 GPT-5 的“代理主动性”:也就是它在主动行动与等待明确指令之间的平衡。
降低主动性的提示技巧
默认情况下,在代理环境中,GPT-5 会尽可能全面、周到地收集上下文,以确保输出正确答案。如果你想缩小 GPT-5 的代理行为范围——包括减少无关的工具调用、降低最终答案的延迟——可以尝试以下做法:
- 切换到一个较低的
reasoning_effort
。这会降低探索深度,但提升效率并减少延迟。许多工作流即使在中等甚至较低的reasoning_effort
下也能稳定完成。 - 在提示中明确定义探索问题空间的标准。这能减少模型“发散”思考、过度推理的需求:
<context_gathering>
目标:快速收集足够的上下文。并行探索,一旦可以行动就立即停止。
方法:
- 先广撒网,再发散到重点子查询。
- 并行发起多种查询;阅读每条查询的顶部结果。去重并缓存路径,避免重复查询。
- 避免过度搜集上下文。如需补充,仅在一个并行批次里做有针对性的搜索。
提前停止条件:
- 你能准确指出需要改动的内容。
- 顶部结果已约 70% 收敛到同一区域/路径。
一次升级:
- 如果信号冲突或范围模糊,再跑一轮精炼的并行查询,然后继续。
深度:
- 只追踪你要修改的符号或其接口依赖;除非必要,不做传递展开。
循环:
- 批量搜索 → 最小化计划 → 完成任务。
- 仅当验证失败或出现新的未知因素时才再次搜索。优先行动,而非继续搜索。
</context_gathering>
如果你愿意“一锤定音”,可以直接设定固定的工具调用预算,示例如下。该预算可根据你所需的搜索深度灵活调整。
<context_gathering>
- 搜索深度:极低
- 强烈倾向于尽快给出答案,即便答案可能不完整。
- 通常最多只允许 2 次工具调用。
- 若你认为还需深入调查,先向用户汇报最新发现和未解疑问,待用户确认后再继续。
</context_gathering>
在限制核心上下文收集行为时,给模型留一条“逃生通道”会很有帮助,让它更容易完成较短的上下文收集步骤。通常的做法是在提示中加入允许模型在不确定情况下继续的条款,比如上例中的 “即使答案可能不完全正确”。
提高主动性的提示
相反,如果你想鼓励模型更自主、更持久地调用工具,减少澄清问题或把问题抛回给用户的次数,我们建议:
- 提高
reasoning_effort
; - 使用类似下面的提示,鼓励模型坚持并彻底完成任务:
“请尽可能自主完成整个任务。即使需要多次调用工具或分步骤处理,也请坚持到底,除非遇到无法逾越的障碍,否则不要向用户寻求额外确认。”
<persistence>
- 你是代理——请持续运行,直到用户的查询被完全解决,再结束本轮并交回控制权。
- 只有当你确信问题已解决时,才终止本轮。
- 遇到任何不确定都不要停顿或把问题推给用户——通过研究或推理找出最合理的做法并继续。
- 不要要求人类确认或澄清假设;你始终可以在后续调整。先做出最合理的假设并执行,待任务完成后用文档方式告知用户即可。
</persistence>
一般而言,最好明确告诉代理任务何时算“完成”,列举哪些动作安全、哪些不安全,以及什么情况下才允许把控制权交回给用户。例如,在一套购物工具里:
- 结账与支付工具应设定极低的“不确定容忍度”,稍有疑问就必须让用户确认;
- 搜索工具则应设定极高的容忍度,几乎不必打扰用户。
同样,在编程场景里:
- 删除文件的工具应有远低于 grep 搜索工具的容忍度;一旦可能对用户造成不可逆影响,就立即请求人工确认。
更多建议: