📢 转载信息
原文作者:Microsoft Research
我们很高兴地宣布 Agent Lightning,这是一个开创性的新方法,它允许开发者在不修改任何现有代码的情况下,将强化学习(Reinforcement Learning, RL)添加到现有人工智能智能体(AI agents)中。该技术旨在解决当前智能体开发中的一个主要瓶颈:为智能体定制奖励函数以训练其执行复杂任务的困难。
许多先进的智能体都是基于大型语言模型(LLMs)构建的,这些模型通常设计用于遵循指令并以自回归方式生成响应。虽然这些智能体在遵循指令方面表现出色,但对它们进行强化学习以优化特定行为(例如,更好地规划、减少幻觉或提高多步推理的成功率)通常需要对底层代码进行复杂的重写和微调,这既耗时又需要深厚的专业知识。
Agent Lightning:从代码重写到验证驱动的优化
Agent Lightning 通过引入一个被称为“代理验证器(Agentic Verifier)”的组件来绕过代码重写的需要。这个验证器充当了智能体的外部评估系统,能够“观察”智能体的行为并根据预定的标准判断其性能,从而生成奖励信号,而无需改变智能体自身的代码逻辑。
这个核心创新使得我们可以将成熟的RL算法(如近端策略优化PPO)与现有的、未经修改的LLM驱动的智能体相结合。换句话说,LLM智能体继续像往常一样生成动作(例如,文本输出或工具调用),但这些动作的质量现在由外部验证器通过RL回路进行评估和反馈。
工作原理
Agent Lightning 的工作流程可以概括为以下几个关键步骤:
- 智能体执行 (Agent Execution):现有的LLM驱动的智能体接收任务提示,并生成一个序列的动作或响应。
- 行为观察 (Behavior Observation):Agent Lightning 捕获智能体执行的完整轨迹,包括其输入、中间步骤和最终输出。
- 验证器评估 (Verifier Evaluation):代理验证器(通常是一个专门训练或精心设计的LLM)根据预设的成功标准来审查这个轨迹。
- 奖励生成 (Reward Generation):验证器根据评估结果生成一个标量奖励信号。例如,如果智能体成功完成了多步骤规划,它会获得一个高奖励;如果它陷入无限循环或产生幻觉,则获得低奖励。
- RL策略更新 (RL Policy Update):这个奖励信号被送回标准的RL算法(如PPO),用于更新智能体用于决策的策略模型,而无需触碰原始的LLM代码或指令集。
关键优势
这种方法的优势在于其通用性和易用性:
- 无需代码重写:开发者可以利用现有的、经过良好验证的智能体框架,直接在其之上进行性能优化。
- 泛化性强:验证器可以被设计来评估广泛的行为目标,如任务完成率、安全性、效率或遵循特定规则。
- 加速迭代:将RL优化从复杂的代码集成中解耦,使得智能体的训练和调优过程大大加速。
我们相信 Agent Lightning 为通用人工智能智能体的可靠部署铺平了道路,因为它提供了一种高效、非侵入性的方式来确保智能体行为符合复杂的、难以明确编码的性能目标。
相关工作:
我们最近在另一篇论文中探讨了相关的多模态强化学习,即使用代理验证器来评估和奖励多模态AI智能体的行为。这展示了验证器在更广泛的感知和行动空间中应用的可能性。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区