我们如何监控内部编程智能体的对齐失范-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/how-we-monitor-internal-coding-agents-misalignment

原文作者：OpenAI

在真实环境的大规模应用中，AI 系统正展现出愈发强大的自主性。它们已能胜任日益复杂且极具影响力的任务，并以类人协作的方式，深度嵌入各种工具、系统及工作流之中。OpenAI 的核心使命是引导世界以负责任的方式完成向通用人工智能 (AGI) 的转型。这意味着我们不仅要构建高能力系统，还要随着其能力的演进，同步开发配套的安全部署与管理方案。

我们的方案及其运作机制

监控内部部署的智能体是我们的核心手段之一。我们开发了一套低延迟的内部监控系统，由处于最高推理强度状态的 GPT-5.4 Thinking 提供支持。该系统负责审查智能体的交互过程，并针对那些可能与用户意图不符，或可能违反内部安全及合规策略的行为发出警报。

在最新版本中，我们的监控系统会在任务完成后的 30 分钟内审查交互过程。随着延迟降低至接近实时审查，其安全收益将显著提升。初步结果显示，该系统不仅能可靠捕捉员工上报的问题，还能发现许多原本可能被忽略的风险行为。

我们监控的内容

监控系统在所有标准的内部编程智能体部署中静默运行，审查完整的对话历史，包括思维链 (Chains of thought)、用户及助手的消息，以及工具调用及其输出结果。如果系统识别出看起来与用户意图不符或存在可疑迹象的动作（例如尝试规避限制），则会将其上报以供人工审查。

在运行该系统的五个月内，我们监控了数千万个内部编程执行过程。虽然我们观察到了如命令编码混淆、提示注入攻击及凭据提取等中等严重级别的行为，但尚未触发最高严重等级的警报（该等级旨在捕获如连贯的谋划行为等极端风险）。

功能局限与未来展望

尽管目前的监控系统表现卓越，但我们也意识到其局限性：某些失范行为可能比其他行为更难通过推理和工具轨迹捕捉。目前，我们将其视为“纵深防御”体系中的一层。构建这一基础设施的路线图包括：

控制评估：估算监控器在对抗性分布下的召回率，并防止智能体与监控器串通。
优化标准：针对监控器与人工审核员的响应制定可靠性及延迟标准。
同步拦截：将监控从异步审查扩展至同步拦截模式，在行为执行前进行阻断。

我们坚信，通过实测经验不断强化内部监控实践，并推动行业将类似的防护措施标准化，是确保 AI 走向安全未来的关键。我们计划于今年夏季发布更深入的后续分析报告。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

我们如何监控内部编程智能体的对齐失范

我们的方案及其运作机制

我们监控的内容

功能局限与未来展望

评论区