目 录CONTENT

文章目录

我们如何监控内部编程智能体的对齐失范

Administrator
2026-04-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/how-we-monitor-internal-coding-agents-misalignment

原文作者:OpenAI


在真实环境的大规模应用中,AI 系统正展现出愈发强大的自主性。它们已能胜任日益复杂且极具影响力的任务,并以类人协作的方式,深度嵌入各种工具、系统及工作流之中。OpenAI 的核心使命是引导世界以负责任的方式完成向通用人工智能 (AGI) 的转型。这意味着我们不仅要构建高能力系统,还要随着其能力的演进,同步开发配套的安全部署与管理方案。

我们的方案及其运作机制

监控内部部署的智能体是我们的核心手段之一。我们开发了一套低延迟的内部监控系统,由处于最高推理强度状态的 GPT-5.4 Thinking 提供支持。该系统负责审查智能体的交互过程,并针对那些可能与用户意图不符,或可能违反内部安全及合规策略的行为发出警报。

在最新版本中,我们的监控系统会在任务完成后的 30 分钟内审查交互过程。随着延迟降低至接近实时审查,其安全收益将显著提升。初步结果显示,该系统不仅能可靠捕捉员工上报的问题,还能发现许多原本可能被忽略的风险行为。

我们监控的内容

监控系统在所有标准的内部编程智能体部署中静默运行,审查完整的对话历史,包括思维链 (Chains of thought)、用户及助手的消息,以及工具调用及其输出结果。如果系统识别出看起来与用户意图不符或存在可疑迹象的动作(例如尝试规避限制),则会将其上报以供人工审查。

在运行该系统的五个月内,我们监控了数千万个内部编程执行过程。虽然我们观察到了如命令编码混淆提示注入攻击凭据提取等中等严重级别的行为,但尚未触发最高严重等级的警报(该等级旨在捕获如连贯的谋划行为等极端风险)。

功能局限与未来展望

尽管目前的监控系统表现卓越,但我们也意识到其局限性:某些失范行为可能比其他行为更难通过推理和工具轨迹捕捉。目前,我们将其视为“纵深防御”体系中的一层。构建这一基础设施的路线图包括:

  1. 控制评估:估算监控器在对抗性分布下的召回率,并防止智能体与监控器串通。
  2. 优化标准:针对监控器与人工审核员的响应制定可靠性及延迟标准。
  3. 同步拦截:将监控从异步审查扩展至同步拦截模式,在行为执行前进行阻断。

我们坚信,通过实测经验不断强化内部监控实践,并推动行业将类似的防护措施标准化,是确保 AI 走向安全未来的关键。我们计划于今年夏季发布更深入的后续分析报告。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区