Agent Lightning：无需重写代码即可为人工智能智能体添加强化学习-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.microsoft.com/en-us/research/blog/agent-lightning-adding-reinforcement-learning-to-ai-agents-without-code-rewrites/

原文作者：Microsoft Research

我们很高兴地宣布 Agent Lightning，这是一个开创性的新方法，它允许开发者在不修改任何现有代码的情况下，将强化学习（Reinforcement Learning, RL）添加到现有人工智能智能体（AI agents）中。该技术旨在解决当前智能体开发中的一个主要瓶颈：为智能体定制奖励函数以训练其执行复杂任务的困难。

许多先进的智能体都是基于大型语言模型（LLMs）构建的，这些模型通常设计用于遵循指令并以自回归方式生成响应。虽然这些智能体在遵循指令方面表现出色，但对它们进行强化学习以优化特定行为（例如，更好地规划、减少幻觉或提高多步推理的成功率）通常需要对底层代码进行复杂的重写和微调，这既耗时又需要深厚的专业知识。

Agent Lightning：从代码重写到验证驱动的优化

Agent Lightning 通过引入一个被称为“代理验证器（Agentic Verifier）”的组件来绕过代码重写的需要。这个验证器充当了智能体的外部评估系统，能够“观察”智能体的行为并根据预定的标准判断其性能，从而生成奖励信号，而无需改变智能体自身的代码逻辑。

这个核心创新使得我们可以将成熟的RL算法（如近端策略优化PPO）与现有的、未经修改的LLM驱动的智能体相结合。换句话说，LLM智能体继续像往常一样生成动作（例如，文本输出或工具调用），但这些动作的质量现在由外部验证器通过RL回路进行评估和反馈。

工作原理

Agent Lightning 的工作流程可以概括为以下几个关键步骤：

智能体执行 (Agent Execution)：现有的LLM驱动的智能体接收任务提示，并生成一个序列的动作或响应。
行为观察 (Behavior Observation)：Agent Lightning 捕获智能体执行的完整轨迹，包括其输入、中间步骤和最终输出。
验证器评估 (Verifier Evaluation)：代理验证器（通常是一个专门训练或精心设计的LLM）根据预设的成功标准来审查这个轨迹。
奖励生成 (Reward Generation)：验证器根据评估结果生成一个标量奖励信号。例如，如果智能体成功完成了多步骤规划，它会获得一个高奖励；如果它陷入无限循环或产生幻觉，则获得低奖励。
RL策略更新 (RL Policy Update)：这个奖励信号被送回标准的RL算法（如PPO），用于更新智能体用于决策的策略模型，而无需触碰原始的LLM代码或指令集。

关键优势

这种方法的优势在于其通用性和易用性：

无需代码重写：开发者可以利用现有的、经过良好验证的智能体框架，直接在其之上进行性能优化。
泛化性强：验证器可以被设计来评估广泛的行为目标，如任务完成率、安全性、效率或遵循特定规则。
加速迭代：将RL优化从复杂的代码集成中解耦，使得智能体的训练和调优过程大大加速。

我们相信 Agent Lightning 为通用人工智能智能体的可靠部署铺平了道路，因为它提供了一种高效、非侵入性的方式来确保智能体行为符合复杂的、难以明确编码的性能目标。

相关工作：

我们最近在另一篇论文中探讨了相关的多模态强化学习，即使用代理验证器来评估和奖励多模态AI智能体的行为。这展示了验证器在更广泛的感知和行动空间中应用的可能性。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Agent Lightning：无需重写代码即可为人工智能智能体添加强化学习

Agent Lightning：从代码重写到验证驱动的优化

工作原理

关键优势

评论区