目 录CONTENT

文章目录

Agent Lightning:无需重写代码即可为人工智能智能体添加强化学习

Administrator
2026-01-24 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:https://www.microsoft.com/en-us/research/blog/agent-lightning-adding-reinforcement-learning-to-ai-agents-without-code-rewrites/

原文作者:Microsoft Research


我们很高兴地宣布 Agent Lightning,这是一个开创性的新方法,它允许开发者在不修改任何现有代码的情况下,将强化学习(Reinforcement Learning, RL)添加到现有人工智能智能体(AI agents)中。该技术旨在解决当前智能体开发中的一个主要瓶颈:为智能体定制奖励函数以训练其执行复杂任务的困难。


许多先进的智能体都是基于大型语言模型(LLMs)构建的,这些模型通常设计用于遵循指令并以自回归方式生成响应。虽然这些智能体在遵循指令方面表现出色,但对它们进行强化学习以优化特定行为(例如,更好地规划、减少幻觉或提高多步推理的成功率)通常需要对底层代码进行复杂的重写和微调,这既耗时又需要深厚的专业知识。


Agent Lightning:从代码重写到验证驱动的优化


Agent Lightning 通过引入一个被称为“代理验证器(Agentic Verifier)”的组件来绕过代码重写的需要。这个验证器充当了智能体的外部评估系统,能够“观察”智能体的行为并根据预定的标准判断其性能,从而生成奖励信号,而无需改变智能体自身的代码逻辑。


这个核心创新使得我们可以将成熟的RL算法(如近端策略优化PPO)与现有的、未经修改的LLM驱动的智能体相结合。换句话说,LLM智能体继续像往常一样生成动作(例如,文本输出或工具调用),但这些动作的质量现在由外部验证器通过RL回路进行评估和反馈。


工作原理


Agent Lightning 的工作流程可以概括为以下几个关键步骤:


  1. 智能体执行 (Agent Execution):现有的LLM驱动的智能体接收任务提示,并生成一个序列的动作或响应。
  2. 行为观察 (Behavior Observation):Agent Lightning 捕获智能体执行的完整轨迹,包括其输入、中间步骤和最终输出。
  3. 验证器评估 (Verifier Evaluation):代理验证器(通常是一个专门训练或精心设计的LLM)根据预设的成功标准来审查这个轨迹。
  4. 奖励生成 (Reward Generation):验证器根据评估结果生成一个标量奖励信号。例如,如果智能体成功完成了多步骤规划,它会获得一个高奖励;如果它陷入无限循环或产生幻觉,则获得低奖励。
  5. RL策略更新 (RL Policy Update):这个奖励信号被送回标准的RL算法(如PPO),用于更新智能体用于决策的策略模型,而无需触碰原始的LLM代码或指令集

关键优势


这种方法的优势在于其通用性和易用性


  • 无需代码重写:开发者可以利用现有的、经过良好验证的智能体框架,直接在其之上进行性能优化。
  • 泛化性强:验证器可以被设计来评估广泛的行为目标,如任务完成率、安全性、效率或遵循特定规则。
  • 加速迭代:将RL优化从复杂的代码集成中解耦,使得智能体的训练和调优过程大大加速。

我们相信 Agent Lightning 为通用人工智能智能体的可靠部署铺平了道路,因为它提供了一种高效、非侵入性的方式来确保智能体行为符合复杂的、难以明确编码的性能目标。


相关工作:

我们最近在另一篇论文中探讨了相关的多模态强化学习,即使用代理验证器来评估和奖励多模态AI智能体的行为。这展示了验证器在更广泛的感知和行动空间中应用的可能性。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区