目 录CONTENT

文章目录

使用多模态强化学习的智能体代理验证器实现多模态强化学习

Administrator
2026-03-10 / 0 评论 / 0 点赞 / 2 阅读 / 0 字

📢 转载信息

原文链接:https://www.microsoft.com/en-us/research/blog/multimodal-reinforcement-learning-with-agentic-verifier-for-ai-agents/

原文作者:Microsoft Research


我们很高兴地宣布,多模态强化学习(Multimodal Reinforcement Learning, MRL) 正在成为构建更强大、更可靠的AI代理(AI Agents)的关键支柱。

今天,我们将重点介绍一项突破性的研究,该研究将MRL与“智能体代理验证器”(Agentic Verifier)相结合,以解决当前多模态AI模型在处理需要外部知识和工具的复杂任务时面临的可靠性挑战。

理解多模态强化学习的挑战

AI代理,特别是那些基于大型语言模型(LLM)的代理,在完成从文本到动作(Text-to-Action)的复杂任务序列时,需要整合来自不同模态(如图像、文本、代码)的信息,并决定何时以及如何使用外部工具。传统方法通常依赖于单一的、静态的策略来执行这些决策,这导致了以下问题:

  • 推理错误: 在面对模态间细微的依赖关系时容易出错。
  • 工具滥用: 不知道何时调用外部API或工具,或者调用错误。
  • 低可信度: 最终输出的可靠性难以保证。

智能体代理验证器:提升可靠性的核心

我们的核心贡献是引入了智能体代理验证器。这个验证器充当了一个元控制器,专门用于评估代理当前采取的行动序列(包括工具调用和输出生成)的有效性和合理性。

该框架的工作流程可以概括为:

  1. 感知与规划: 多模态LLM接收输入,并生成一个行动序列(例如:观察图像A,调用API X,生成文本B)。
  2. 验证阶段: 智能体代理验证器接收该序列,并对照预设的规则集和环境反馈进行交叉检查。
  3. 修正与执行: 如果验证器发现潜在错误或不一致,它会要求LLM进行自我修正(Self-Correction),直到序列被验证为可靠为止。
  4. 最终输出: 只有经过验证的序列才会被执行或输出。

这个验证过程本质上就是应用了强化学习的理念,通过奖励(Reward)信号来鼓励代理生成可验证的、逻辑一致的行动路径。

Three white icons on a blue‑green gradient: a ribcage scan, a circuit‑style document, and a neural network diagram

实验结果与影响

我们在多个基准测试中评估了结合了Agentic Verifier的多模态强化学习代理(MRL-AV)。结果显示,与纯粹的基于提示(Prompt-based)或监督学习(Supervised Learning)的模型相比,MRL-AV 在以下方面实现了显著提升:

任务完成率

在需要跨越多个步骤、涉及视觉推理和代码执行的复杂任务中,我们的代理的端到端成功率提高了 25%

工具使用效率

验证器的存在使得代理能够更精确地判断何时需要调用外部工具,减少了无效或重复的API调用,从而降低了延迟并节省了计算资源

“智能体代理验证器提供了一个至关重要的安全网。它使得我们能够将强大的多模态生成能力与企业级应用的严格可靠性要求相结合。”

未来的展望:迈向通用智能体

这项工作标志着我们向构建更具自主性(Autonomous)可信赖性(Trustworthy) 的AI代理迈出了重要一步。未来的研究将集中于使验证器本身也具备学习能力,从而动态地适应不断变化的外部环境和工具集。

我们相信,MRL与智能体验证的结合将是未来通用人工智能(AGI)发展的关键路径之一。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区